論文の概要: Planning with Exploration: Addressing Dynamics Bottleneck in Model-based
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.12914v3
- Date: Thu, 24 Jun 2021 16:06:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:08:10.989009
- Title: Planning with Exploration: Addressing Dynamics Bottleneck in Model-based
Reinforcement Learning
- Title(参考訳): 探索による計画:モデルベース強化学習におけるダイナミクスボトルネックに対処する
- Authors: Xiyao Wang, Junge Zhang, Wenzhen Huang, Qiyue Yin
- Abstract要約: 理論的解析により動的ボトルネックジレンマを引き起こす主な原因は軌道報酬推定誤差であることがわかった。
このことから,MOPE(Progressive Entropy-based Exploration)と呼ばれるモデルベース制御手法が提案されている。
- 参考スコア(独自算出の注目度): 25.077671501605746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) is believed to have higher sample
efficiency compared with model-free reinforcement learning (MFRL). However,
MBRL is plagued by dynamics bottleneck dilemma. Dynamics bottleneck dilemma is
the phenomenon that the performance of the algorithm falls into the local
optimum instead of increasing when the interaction step with the environment
increases, which means more data can not bring better performance. In this
paper, we find that the trajectory reward estimation error is the main reason
that causes dynamics bottleneck dilemma through theoretical analysis. We give
an upper bound of the trajectory reward estimation error and point out that
increasing the agent's exploration ability is the key to reduce trajectory
reward estimation error, thereby alleviating dynamics bottleneck dilemma.
Motivated by this, a model-based control method combined with exploration named
MOdel-based Progressive Entropy-based Exploration (MOPE2) is proposed. We
conduct experiments on several complex continuous control benchmark tasks. The
results verify that MOPE2 can effectively alleviate dynamics bottleneck dilemma
and have higher sample efficiency than previous MBRL and MFRL algorithms.
- Abstract(参考訳): モデルベース強化学習(MBRL)は,モデルフリー強化学習(MFRL)と比較して試料効率が高いと考えられている。
しかし、MBRLは動的ボトルネックジレンマに悩まされている。
ダイナミクスボトルネックジレンマ(dynamics bottleneck dilemma)とは、環境とのインタラクションステップが増加すると、アルゴリズムのパフォーマンスが上昇する代わりに局所最適になる現象である。
本稿では, 軌道報酬推定誤差が, 理論的解析により動的ボトルネックジレンマを引き起こす主な原因であることを示す。
軌道報酬推定誤差の上限を与え,エージェントの探索能力の向上が軌道報酬推定誤差の低減の鍵であることを指摘し,ダイナミクスボトルネックのジレンマを緩和する。
このことから,MOPE(Progressive Entropy-based Exploration)と呼ばれるモデルベース制御手法が提案されている。
いくつかの複雑な連続制御ベンチマークタスクについて実験を行う。
その結果,MOPE2は動的ボトルネックジレンマを効果的に軽減し,従来のMBRLアルゴリズムやMFRLアルゴリズムよりも高いサンプリング効率が得られた。
関連論文リスト
- Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。
実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文 参考訳(メタデータ) (2024-05-28T03:28:00Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Imitation with Neural Density Models [98.34503611309256]
本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。
提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
論文 参考訳(メタデータ) (2020-10-19T19:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。