論文の概要: Policy-Aware Model Learning for Policy Gradient Methods
- arxiv url: http://arxiv.org/abs/2003.00030v2
- Date: Mon, 4 Jan 2021 03:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:23:40.819337
- Title: Policy-Aware Model Learning for Policy Gradient Methods
- Title(参考訳): 政策グラディエント手法のための政策意識モデル学習
- Authors: Romina Abachi, Mohammad Ghavamzadeh, Amir-massoud Farahmand
- Abstract要約: 本稿では,モデルベース強化学習(MBRL)におけるモデル学習の問題について考察する。
モデル学習モジュールは、プランナーがモデルを使う方法を取り入れるべきである。
このアプローチをPAML(Policy-Aware Model Learning)と呼ぶ。
- 参考スコア(独自算出の注目度): 29.129883702165774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the problem of learning a model in model-based
reinforcement learning (MBRL). We examine how the planning module of an MBRL
algorithm uses the model, and propose that the model learning module should
incorporate the way the planner is going to use the model. This is in contrast
to conventional model learning approaches, such as those based on maximum
likelihood estimate, that learn a predictive model of the environment without
explicitly considering the interaction of the model and the planner. We focus
on policy gradient type of planning algorithms and derive new loss functions
for model learning that incorporate how the planner uses the model. We call
this approach Policy-Aware Model Learning (PAML). We theoretically analyze a
generic model-based policy gradient algorithm and provide a convergence
guarantee for the optimized policy. We also empirically evaluate PAML on some
benchmark problems, showing promising results.
- Abstract(参考訳): 本稿では,モデルベース強化学習(MBRL)におけるモデル学習の問題について考察する。
MBRLアルゴリズムの計画モジュールがモデルをどのように利用するかを検討するとともに、モデル学習モジュールは、プランナーがモデルを使用する方法を組み込むことを提案する。
これは、モデルとプランナーの相互作用を明示的に考慮せずに、環境の予測モデルを学習する、最大確率推定に基づくような従来のモデル学習アプローチとは対照的である。
政策勾配型計画アルゴリズムに焦点をあて、プランナーがモデルをどのように利用するかを含むモデル学習のための新しい損失関数を導出する。
このアプローチをPAML(Policy-Aware Model Learning)と呼ぶ。
理論的にモデルに基づくポリシー勾配アルゴリズムを解析し、最適化されたポリシーに対する収束保証を提供する。
また,いくつかのベンチマーク問題に対してPAMLを実験的に評価し,有望な結果を示した。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - The Virtues of Laziness in Model-based RL: A Unified Objective and
Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。
我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。
提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文 参考訳(メタデータ) (2023-03-01T17:42:26Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Reinforcement Learning with Multi-step Plan Value Estimation [4.158979444110977]
モデルベースRLのマルチステップ動作を置き換えるためのマルチステップ計画を導入する。
新しいモデルベース強化学習アルゴリズムMPPVEは、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。
論文 参考訳(メタデータ) (2022-09-12T18:22:11Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。