論文の概要: Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation
- arxiv url: http://arxiv.org/abs/2107.01825v1
- Date: Mon, 5 Jul 2021 07:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:17:43.993720
- Title: Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation
- Title(参考訳): モデルエンサンブル探索と爆発による有効強化学習
- Authors: Yao Yao, Li Xiao, Zhicheng An, Wanpeng Zhang, and Dijun Luo
- Abstract要約: MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
- 参考スコア(独自算出の注目度): 3.728946517493471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based deep reinforcement learning has achieved success in various
domains that require high sample efficiencies, such as Go and robotics.
However, there are some remaining issues, such as planning efficient
explorations to learn more accurate dynamic models, evaluating the uncertainty
of the learned models, and more rational utilization of models. To mitigate
these issues, we present MEEE, a model-ensemble method that consists of
optimistic exploration and weighted exploitation. During exploration, unlike
prior methods directly selecting the optimal action that maximizes the expected
accumulative return, our agent first generates a set of action candidates and
then seeks out the optimal action that takes both expected return and future
observation novelty into account. During exploitation, different discounted
weights are assigned to imagined transition tuples according to their model
uncertainty respectively, which will prevent model predictive error propagation
in agent training. Experiments on several challenging continuous control
benchmark tasks demonstrated that our approach outperforms other model-free and
model-based state-of-the-art methods, especially in sample complexity.
- Abstract(参考訳): モデルに基づく深層強化学習は、Goやロボティクスといった高いサンプル効率を必要とする様々な領域で成功している。
しかし、より正確な動的モデルを学ぶための効率的な探索計画、学習したモデルの不確実性の評価、モデルのより合理的な利用など、いくつかの問題は残っている。
これらの問題を緩和するために,楽観的な探索と重み付けによる手法であるMEEEを提案する。
探索中、期待される累積リターンを最大化する最適なアクションを直接選択する従来の方法とは異なり、エージェントはまず一連のアクション候補を生成し、期待されたリターンと将来の観察ノベルティを考慮に入れた最適なアクションを探す。
搾取中は, モデルの不確実性に応じて, 異なる割引重量を仮定し, エージェントトレーニングにおけるモデル予測誤差の伝播を防止する。
いくつかの挑戦的な連続制御ベンチマークタスクの実験により、我々のアプローチは、特にサンプルの複雑さにおいて、他のモデルフリーおよびモデルベースステート・オブ・ザ・アーティカルな手法よりも優れていることを示した。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。