論文の概要: Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.17031v1
- Date: Mon, 27 May 2024 10:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 16:01:56.400442
- Title: Any-step Dynamics Model Improves Future Predictions for Online and Offline Reinforcement Learning
- Title(参考訳): Any-step Dynamics Modelはオンラインおよびオフライン強化学習の将来予測を改善する
- Authors: Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu,
- Abstract要約: 本稿では,ブートストラップ予測を直接予測に還元することにより,合成誤差を軽減するAny-step Dynamics Model (ADM)を提案する。
ADMは、頻繁なブートストラップなしで将来の状態を予測するための入力として可変長プランを使用することができる。
ADMPO-ONとADMPO-OFFの2つのアルゴリズムを設計し、オンラインおよびオフラインのモデルベースフレームワークにADMを適用する。
- 参考スコア(独自算出の注目度): 11.679095516650593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Model-based methods in reinforcement learning offer a promising approach to enhance data efficiency by facilitating policy exploration within a dynamics model. However, accurately predicting sequential steps in the dynamics model remains a challenge due to the bootstrapping prediction, which attributes the next state to the prediction of the current state. This leads to accumulated errors during model roll-out. In this paper, we propose the Any-step Dynamics Model (ADM) to mitigate the compounding error by reducing bootstrapping prediction to direct prediction. ADM allows for the use of variable-length plans as inputs for predicting future states without frequent bootstrapping. We design two algorithms, ADMPO-ON and ADMPO-OFF, which apply ADM in online and offline model-based frameworks, respectively. In the online setting, ADMPO-ON demonstrates improved sample efficiency compared to previous state-of-the-art methods. In the offline setting, ADMPO-OFF not only demonstrates superior performance compared to recent state-of-the-art offline approaches but also offers better quantification of model uncertainty using only a single ADM.
- Abstract(参考訳): 強化学習におけるモデルに基づく手法は、ダイナミックスモデル内のポリシー探索を容易にすることにより、データ効率を向上させるための有望なアプローチを提供する。
しかしながら、動的モデルのシーケンシャルステップを正確に予測することは、現在の状態の予測に次の状態を属性とするブートストラップ予測のため、依然として課題である。
これにより、モデルロールアウト時にエラーが蓄積される。
本稿では,ブートストラップ予測を減らして直接予測することにより,合成誤差を軽減するAny-step Dynamics Model (ADM)を提案する。
ADMは、頻繁なブートストラップなしで将来の状態を予測するための入力として可変長プランを使用することができる。
ADMPO-ON と ADMPO-OFF の2つのアルゴリズムを設計し,オンラインおよびオフラインのモデルベースフレームワークにそれぞれ ADM を適用する。
オンライン環境では、ADMPO-ONは従来の最先端手法と比較してサンプル効率が改善されている。
オフライン環境では、ADMPO-OFFは最近の最先端のオフラインアプローチよりも優れた性能を示すだけでなく、1つのADMのみを用いてモデル不確実性の定量化を提供する。
関連論文リスト
- Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Bidirectional Model-based Policy Optimization [30.732572976324516]
モデルに基づく強化学習アプローチは、計画と意思決定をサポートするためにフォワードダイナミクスモデルを活用する。
本稿では,前方モデル予測における精度への依存を減らすために,後方ダイナミクスモデルを構築することを提案する。
本稿では,二方向性モデルベースポリシー (BMPO) と呼ばれる新しい手法を開発し,前向きモデルと後向きモデルの両方を用いて,政策最適化のための短い分岐ロールアウトを生成する。
論文 参考訳(メタデータ) (2020-07-04T03:34:09Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。