論文の概要: On the model-based stochastic value gradient for continuous
reinforcement learning
- arxiv url: http://arxiv.org/abs/2008.12775v3
- Date: Thu, 27 May 2021 17:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:21:07.657002
- Title: On the model-based stochastic value gradient for continuous
reinforcement learning
- Title(参考訳): 連続強化学習のためのモデルベース確率値勾配について
- Authors: Brandon Amos, Samuel Stanton, Denis Yarats, Andrew Gordon Wilson
- Abstract要約: モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
- 参考スコア(独自算出の注目度): 50.085645237597056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For over a decade, model-based reinforcement learning has been seen as a way
to leverage control-based domain knowledge to improve the sample-efficiency of
reinforcement learning agents. While model-based agents are conceptually
appealing, their policies tend to lag behind those of model-free agents in
terms of final reward, especially in non-trivial environments. In response,
researchers have proposed model-based agents with increasingly complex
components, from ensembles of probabilistic dynamics models, to heuristics for
mitigating model error. In a reversal of this trend, we show that simple
model-based agents can be derived from existing ideas that not only match, but
outperform state-of-the-art model-free agents in terms of both
sample-efficiency and final reward. We find that a model-free soft value
estimate for policy evaluation and a model-based stochastic value gradient for
policy improvement is an effective combination, achieving state-of-the-art
results on a high-dimensional humanoid control task, which most model-based
agents are unable to solve. Our findings suggest that model-based policy
evaluation deserves closer attention.
- Abstract(参考訳): 10年以上にわたり、モデルベースの強化学習は、強化学習エージェントのサンプル効率を改善するために制御ベースのドメイン知識を活用する方法と見なされてきた。
モデルベースエージェントは概念的に魅力的だが、そのポリシーは最終的な報酬、特に非自明な環境ではモデルフリーエージェントよりも遅れやすい。
これに対し、研究者は確率力学モデルのアンサンブルからモデル誤差を緩和するためのヒューリスティックスまで、ますます複雑な成分を持つモデルベースエージェントを提案した。
この傾向の逆転として、単純なモデルベースのエージェントは、サンプル効率と最終報酬の両方の観点から、既存のアイデアとマッチするだけでなく、最先端のモデルフリーエージェントよりも優れています。
政策評価のためのモデルフリーなソフト価値推定と、政策改善のためのモデルベース確率的価値勾配は効果的な組み合わせであり、ほとんどのモデルベースエージェントでは解決できない高次元ヒューマノイド制御タスクで最先端の結果が得られる。
以上の結果から,モデルに基づく政策評価が注目に値することが示唆された。
関連論文リスト
- Constructing Concept-based Models to Mitigate Spurious Correlations with Minimal Human Effort [31.992947353231564]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、人間の理解可能な概念を通じて、モデルの振る舞いを開示し、導くための原則的な方法を提供する。
本稿では,これらのバイアスに無害でありながら事前学習モデルを活用するために設計された新しいフレームワークを提案する。
提案手法を複数のデータセット上で評価し,その解釈可能性を維持しつつ,素粒子相関によるモデル依存の低減効果を示した。
論文 参考訳(メタデータ) (2024-07-12T03:07:28Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。