論文の概要: Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy
- arxiv url: http://arxiv.org/abs/2207.12141v1
- Date: Mon, 25 Jul 2022 12:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:16:28.264455
- Title: Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy
- Title(参考訳): Live in the Moment: 政策の進化に適応した学習ダイナミクスモデル
- Authors: Xiyao Wang, Wichayaporn Wongkamjan, Furong Huang
- Abstract要約: グローバルなダイナミクスモデルを学ぶことは、使用中のポリシーが常に進化しているため、現在のポリシーのモデル予測に必ずしも利益をもたらすとは限らない。
ポリシー適応型動的モデルを学ぶための新しいモデルベースRL法であるtextitPolicy-adaptation Model-based Actor-Critic (PMAC)を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PMACは最先端の性能を達成し、サンプル効率は従来のモデルベース手法よりも約2倍高いことが示されている。
- 参考スコア(独自算出の注目度): 13.819070455425075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (RL) achieves higher sample efficiency in
practice than model-free RL by learning a dynamics model to generate samples
for policy learning. Previous works learn a "global" dynamics model to fit the
state-action visitation distribution for all historical policies. However, in
this paper, we find that learning a global dynamics model does not necessarily
benefit model prediction for the current policy since the policy in use is
constantly evolving. The evolving policy during training will cause
state-action visitation distribution shifts. We theoretically analyze how the
distribution of historical policies affects the model learning and model
rollouts. We then propose a novel model-based RL method, named
\textit{Policy-adaptation Model-based Actor-Critic (PMAC)}, which learns a
policy-adapted dynamics model based on a policy-adaptation mechanism. This
mechanism dynamically adjusts the historical policy mixture distribution to
ensure the learned model can continually adapt to the state-action visitation
distribution of the evolving policy. Experiments on a range of continuous
control environments in MuJoCo show that PMAC achieves state-of-the-art
asymptotic performance and almost two times higher sample efficiency than prior
model-based methods.
- Abstract(参考訳): モデルベース強化学習(RL)は、動的モデルを学び、政策学習のためのサンプルを生成することにより、モデルフリーRLよりも実際に高いサンプル効率を実現する。
以前の研究は、すべての歴史的政策のステートアクション訪問分布に適合する「グローバル」ダイナミクスモデルを学ぶ。
しかし,本稿では,グローバルなダイナミックスモデルを学習することは,使用中のポリシーが常に進化しているため,現在のポリシーのモデル予測に必ずしも利益をもたらすとは限らない。
トレーニング中のポリシーの進化は、状態行動の訪問分布の変化を引き起こす。
歴史的政策の分布がモデル学習とモデル展開に与える影響を理論的に解析する。
次に、ポリシー適応機構に基づいてポリシー適応動的モデルを学ぶ、新しいモデルベースRL法である「textit{Policy-adaptation Model-based Actor-Critic (PMAC)}を提案する。
このメカニズムは歴史的政策混合分布を動的に調整し、学習したモデルが進化した政策の状態-行動訪問分布に継続的に適応できるようにする。
MuJoCoにおける一連の連続制御環境の実験では、PMACは最先端の漸近的性能を達成し、サンプル効率は従来のモデルベース手法よりも約2倍高い。
関連論文リスト
- Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。