論文の概要: Bidirectional Model-based Policy Optimization
- arxiv url: http://arxiv.org/abs/2007.01995v2
- Date: Tue, 29 Sep 2020 13:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:02:38.740198
- Title: Bidirectional Model-based Policy Optimization
- Title(参考訳): 双方向モデルに基づく政策最適化
- Authors: Hang Lai, Jian Shen, Weinan Zhang, Yong Yu
- Abstract要約: モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。
本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。
本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
- 参考スコア(独自算出の注目度): 30.732572976324516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning approaches leverage a forward dynamics
model to support planning and decision making, which, however, may fail
catastrophically if the model is inaccurate. Although there are several
existing methods dedicated to combating the model error, the potential of the
single forward model is still limited. In this paper, we propose to
additionally construct a backward dynamics model to reduce the reliance on
accuracy in forward model predictions. We develop a novel method, called
Bidirectional Model-based Policy Optimization (BMPO) to utilize both the
forward model and backward model to generate short branched rollouts for policy
optimization. Furthermore, we theoretically derive a tighter bound of return
discrepancy, which shows the superiority of BMPO against the one using merely
the forward model. Extensive experiments demonstrate that BMPO outperforms
state-of-the-art model-based methods in terms of sample efficiency and
asymptotic performance.
- Abstract(参考訳): モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを利用するが、モデルが不正確であれば破滅的に失敗する可能性がある。
モデルエラーと戦うための方法がいくつか存在するが、単一のフォワードモデルの可能性はまだ限られている。
本稿では,フォワードモデル予測における精度依存性を低減すべく,後方ダイナミクスモデルを構築することを提案する。
bmpo(bidirectional model-based policy optimization)と呼ばれる新しい手法を開発し、フォワードモデルとフォワードモデルの両方を利用して、ポリシー最適化のための短い分岐ロールアウトを生成する。
さらに、理論上は、単にフォワードモデルを用いたBMPOの方が優れていることを示すような、リターン不一致の厳密な境界を導出する。
広範囲な実験により、BMPOはサンプル効率と漸近性能の点で最先端のモデルベース手法より優れていることが示された。
関連論文リスト
- Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning [11.679095516650593]
本稿では,ブートストラップ予測を直接予測に還元することにより,合成誤差を軽減するAny-step Dynamics Model (ADM)を提案する。
ADMは、頻繁なブートストラップなしで将来の状態を予測するための入力として可変長プランを使用することができる。
ADMPO-ONとADMPO-OFFの2つのアルゴリズムを設計し、オンラインおよびオフラインのモデルベースフレームワークにADMを適用する。
論文 参考訳(メタデータ) (2024-05-27T10:33:53Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。