論文の概要: World Models via Policy-Guided Trajectory Diffusion
- arxiv url: http://arxiv.org/abs/2312.08533v1
- Date: Wed, 13 Dec 2023 21:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:45:46.078144
- Title: World Models via Policy-Guided Trajectory Diffusion
- Title(参考訳): 政策誘導軌道拡散による世界モデル
- Authors: Marc Rigter, Jun Yamada, Ingmar Posner
- Abstract要約: 既存の世界モデルは自己回帰的であり、ポリシーから次のアクションをサンプリングして次の状態を予測する。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
本研究では,最先端の自己回帰ベースラインに対する競合予測誤差が得られたことを実証する。
- 参考スコア(独自算出の注目度): 24.603905183776728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are a powerful tool for developing intelligent agents. By
predicting the outcome of a sequence of actions, world models enable policies
to be optimised via on-policy reinforcement learning (RL) using synthetic data,
i.e. in ``in imagination''. Existing world models are autoregressive, and
interleave predicting the next state with sampling the next action from the
policy. Thus, the prediction error inevitably compounds as the trajectory
length grows. In this work, we propose a novel world modelling approach that is
not autoregressive and generates entire on-policy trajectories via a single
pass through a diffusion model. Our approach, Policy-Guided Trajectory
Diffusion (PolyGRAD), leverages a denoising model in addition to the gradient
of the action distribution of the policy to diffuse a trajectory of initially
random states and actions into an on-policy synthetic trajectory. We analyse
the capabilities of our approach and demonstrate that it obtains competitive
prediction errors to state-of-the-art autoregressive baselines. PolyGRAD also
enables performant policies to be trained via on-policy RL in imagination. We
believe that PolyGRAD introduces a promising paradigm for world modelling with
many possible extensions to explore in future work.
- Abstract(参考訳): 世界モデルは知的エージェントを開発するための強力なツールです。
一連のアクションの結果を予測することによって、世界モデルは「想像力」という合成データを用いて、オンポリシー強化学習(rl)を通じてポリシーを最適化することができる。
既存の世界モデルは自己回帰的であり、ポリシーから次のアクションをサンプリングして次の状態を予測する。
これにより、軌道長が大きくなるにつれて予測誤差が必然的に複合化する。
本研究では, 自己回帰的ではなく, 拡散モデルを介して単一パスを介してオン・ポリティカル・トラジェクタ全体を生成する, 新たな世界モデリング手法を提案する。
ポリシ誘導軌道拡散(polygrad, policy-guided orbital diffusion)というアプローチでは,方針の動作分布の勾配に加えて,ノイズモデルを用いて初期ランダム状態と動作の軌道をオンポリシー合成軌道に拡散する。
提案手法の能力を解析し,最先端の自己回帰ベースラインに対する競合予測誤差が得られたことを示す。
polygradはまた、イマジネーションにおいて、オン・ポリシーrlを介して実行ポリシーをトレーニングすることを可能にする。
我々はPolyGRADが将来的な研究のために多くの拡張が可能な世界モデリングのための有望なパラダイムを導入していると信じている。
関連論文リスト
- Imagine-2-Drive: High-Fidelity World Modeling in CARLA for Autonomous Vehicles [9.639797094021988]
本稿では,VISTAPlanとDPAの2つのコンポーネントで構成されるフレームワークであるImagine-2-Driveを紹介する。
DPAは、軌道予測のための多モード挙動をモデル化するための拡散に基づくポリシーである。
我々は,標準走行距離における技術(SOTA)世界モデルの現状を,ルート完了率と成功率でそれぞれ15%,20%上回った。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - Policy-Guided Diffusion [30.4597043728046]
多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。
本稿では,自己回帰的オフライン世界モデルに代わる政策誘導拡散法を提案する。
本研究では,政策誘導拡散モデルが目標分布の正規化形態をモデル化し,目標と行動の両ポリシの下で行動可能性のバランスをとることを示す。
論文 参考訳(メタデータ) (2024-04-09T14:46:48Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。