論文の概要: Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy
- arxiv url: http://arxiv.org/abs/2207.12141v3
- Date: Sun, 18 Jun 2023 14:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:58:11.205812
- Title: Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy
- Title(参考訳): Live in the Moment: 政策の進化に適応した学習ダイナミクスモデル
- Authors: Xiyao Wang, Wichayaporn Wongkamjan, Ruonan Jia, Furong Huang
- Abstract要約: 我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
- 参考スコア(独自算出の注目度): 12.295642937445365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (RL) often achieves higher sample
efficiency in practice than model-free RL by learning a dynamics model to
generate samples for policy learning. Previous works learn a dynamics model
that fits under the empirical state-action visitation distribution for all
historical policies, i.e., the sample replay buffer. However, in this paper, we
observe that fitting the dynamics model under the distribution for \emph{all
historical policies} does not necessarily benefit model prediction for the
\emph{current policy} since the policy in use is constantly evolving over time.
The evolving policy during training will cause state-action visitation
distribution shifts. We theoretically analyze how this distribution shift over
historical policies affects the model learning and model rollouts. We then
propose a novel dynamics model learning method, named \textit{Policy-adapted
Dynamics Model Learning (PDML)}. PDML dynamically adjusts the historical policy
mixture distribution to ensure the learned model can continually adapt to the
state-action visitation distribution of the evolving policy. Experiments on a
range of continuous control environments in MuJoCo show that PDML achieves
significant improvement in sample efficiency and higher asymptotic performance
combined with the state-of-the-art model-based RL methods.
- Abstract(参考訳): モデルベース強化学習(RL)は、動的モデルを学び、政策学習のためのサンプルを生成することにより、モデルフリーRLよりも実際に高いサンプル効率を達成する。
以前の研究は、すべての歴史的政策、すなわちサンプル再生バッファの実証的な状態-行動ビジション分布に適合するダイナミックスモデルを学習した。
しかし,本稿では,使用中のポリシが経時的に変化しているため,その分布下でのダイナミックスモデルの適用が必ずしも,<emph{all>履歴ポリシーのモデル予測に有効であるとは限らないことを観察する。
トレーニング中のポリシーの進化は、状態行動の訪問分布の変化を引き起こす。
我々は、この分布がモデル学習とモデルロールアウトに与える影響を理論的に分析する。
次に,新しい動力学モデル学習法である \textit{policy-adapted dynamics model learning (pdml)" を提案する。
PDMLは歴史的政策混合分布を動的に調整し、学習したモデルが進化する政策の状態-行動訪問分布に継続的に適応できるようにする。
MuJoCoにおける一連の連続制御環境の実験により、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率を大幅に向上し、漸近性能を向上することが示された。
関連論文リスト
- Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。