論文の概要: Parallelized Reverse Curriculum Generation
- arxiv url: http://arxiv.org/abs/2108.02128v1
- Date: Wed, 4 Aug 2021 15:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 13:08:07.886196
- Title: Parallelized Reverse Curriculum Generation
- Title(参考訳): 並列化逆カリキュラム生成
- Authors: Zih-Yun Chiu, Yi-Lin Tuan, Hung-yi Lee, Li-Chen Fu
- Abstract要約: 強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
- 参考スコア(独自算出の注目度): 62.25453821794469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For reinforcement learning (RL), it is challenging for an agent to master a
task that requires a specific series of actions due to sparse rewards. To solve
this problem, reverse curriculum generation (RCG) provides a reverse expansion
approach that automatically generates a curriculum for the agent to learn. More
specifically, RCG adapts the initial state distribution from the neighborhood
of a goal to a distance as training proceeds. However, the initial state
distribution generated for each iteration might be biased, thus making the
policy overfit or slowing down the reverse expansion rate. While training RCG
for actor-critic (AC) based RL algorithms, this poor generalization and slow
convergence might be induced by the tight coupling between an AC pair.
Therefore, we propose a parallelized approach that simultaneously trains
multiple AC pairs and periodically exchanges their critics. We empirically
demonstrate that this proposed approach can improve RCG in performance and
convergence, and it can also be applied to other AC based RL algorithms with
adapted initial state distribution.
- Abstract(参考訳): 強化学習(rl)では、エージェントがスパース報酬のために特定の一連のアクションを必要とするタスクをマスターすることは困難である。
この問題を解決するために、逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
より具体的には、rcgはトレーニングが進むにつれてゴールの近傍から距離への初期状態分布に適応する。
しかし、各イテレーションで生成された初期状態分布は偏りがあり、ポリシーが過剰に適合するか、逆拡大率を低下させる。
アクター・クリティック(AC)に基づくRLアルゴリズムのためのRCGのトレーニング中、この一般化と緩やかな収束はACペア間の密結合によって引き起こされる可能性がある。
そこで本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
我々は,提案手法がRCGの性能と収束性を向上し,初期状態分布に適応した他のACベースRLアルゴリズムにも適用可能であることを実証的に実証した。
関連論文リスト
- CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics [2.229467987498053]
CDRL(Categorical Distributional Reinforcement Learning)は,複雑なタスクの学習において,より優れたサンプル効率を示す。
本稿では,連続行動空間に適した連続分布モデル自由RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-04T05:38:38Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Conjugated Discrete Distributions for Distributional Reinforcement
Learning [0.0]
最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
論文 参考訳(メタデータ) (2021-12-14T14:14:49Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。