論文の概要: Model-based Reinforcement Learning with Multi-step Plan Value Estimation
- arxiv url: http://arxiv.org/abs/2209.05530v1
- Date: Mon, 12 Sep 2022 18:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:16:08.059276
- Title: Model-based Reinforcement Learning with Multi-step Plan Value Estimation
- Title(参考訳): 多段階計画値推定を用いたモデルベース強化学習
- Authors: Haoxin Lin, Yihao Sun, Jiaji Zhang, Yang Yu
- Abstract要約: モデルベースRLのマルチステップ動作を置き換えるためのマルチステップ計画を導入する。
新しいモデルベース強化学習アルゴリズムMPPVEは、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
- 参考スコア(独自算出の注目度): 4.158979444110977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A promising way to improve the sample efficiency of reinforcement learning is
model-based methods, in which many explorations and evaluations can happen in
the learned models to save real-world samples. However, when the learned model
has a non-negligible model error, sequential steps in the model are hard to be
accurately evaluated, limiting the model's utilization. This paper proposes to
alleviate this issue by introducing multi-step plans to replace multi-step
actions for model-based RL. We employ the multi-step plan value estimation,
which evaluates the expected discounted return after executing a sequence of
action plans at a given state, and updates the policy by directly computing the
multi-step policy gradient via plan value estimation. The new model-based
reinforcement learning algorithm MPPVE (Model-based Planning Policy Learning
with Multi-step Plan Value Estimation) shows a better utilization of the
learned model and achieves a better sample efficiency than state-of-the-art
model-based RL approaches.
- Abstract(参考訳): 強化学習のサンプル効率を改善するための有望な方法は、実世界のサンプルを保存するために学習モデルで多くの探索と評価を行うモデルベースの手法である。
しかし、学習モデルに無視できないモデル誤差がある場合、モデルのシーケンシャルステップを正確に評価することは困難であり、モデルの利用を制限する。
本稿では,マルチステップ動作をモデルベースrlに置き換える多段階計画を導入することで,この問題を軽減することを提案する。
提案手法は,行動計画の系列を所定の状態で実行した後,期待した割引リターンを評価する多段階計画価値推定手法を採用し,計画価値推定による多段階政策勾配を直接計算して方針を更新する。
新しいモデルベース強化学習アルゴリズムMPPVE (Model-based Planning Policy Learning with Multi-step Plan Value Estimation) は、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
関連論文リスト
- Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Policy-Aware Model Learning for Policy Gradient Methods [29.129883702165774]
本稿では,モデルベース強化学習(MBRL)におけるモデル学習の問題について考察する。
モデル学習モジュールは、プランナーがモデルを使う方法を取り入れるべきである。
このアプローチをPAML(Policy-Aware Model Learning)と呼ぶ。
論文 参考訳(メタデータ) (2020-02-28T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。