論文の概要: World Models via Policy-Guided Trajectory Diffusion
- arxiv url: http://arxiv.org/abs/2312.08533v2
- Date: Sun, 17 Dec 2023 16:47:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 19:15:37.787464
- Title: World Models via Policy-Guided Trajectory Diffusion
- Title(参考訳): 政策誘導軌道拡散による世界モデル
- Authors: Marc Rigter, Jun Yamada, Ingmar Posner
- Abstract要約: 既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 24.603905183776728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models are a powerful tool for developing intelligent agents. By
predicting the outcome of a sequence of actions, world models enable policies
to be optimised via on-policy reinforcement learning (RL) using synthetic data,
i.e. in "in imagination". Existing world models are autoregressive in that they
interleave predicting the next state with sampling the next action from the
policy. Prediction error inevitably compounds as the trajectory length grows.
In this work, we propose a novel world modelling approach that is not
autoregressive and generates entire on-policy trajectories in a single pass
through a diffusion model. Our approach, Policy-Guided Trajectory Diffusion
(PolyGRAD), leverages a denoising model in addition to the gradient of the
action distribution of the policy to diffuse a trajectory of initially random
states and actions into an on-policy synthetic trajectory. We analyse the
connections between PolyGRAD, score-based generative models, and
classifier-guided diffusion models. Our results demonstrate that PolyGRAD
outperforms state-of-the-art baselines in terms of trajectory prediction error
for moderate-length trajectories, with the exception of autoregressive
diffusion. At short horizons, PolyGRAD obtains comparable errors to
autoregressive diffusion, but with significantly lower computational
requirements. Our experiments also demonstrate that PolyGRAD enables performant
policies to be trained via on-policy RL in imagination for MuJoCo continuous
control domains. Thus, PolyGRAD introduces a new paradigm for scalable and
non-autoregressive on-policy world modelling.
- Abstract(参考訳): 世界モデルは知的エージェントを開発するための強力なツールです。
一連のアクションの結果を予測することによって、世界モデルは、合成データ、すなわち「想像力」を用いて、オンポリシー強化学習(rl)を通じてポリシーを最適化することができる。
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
軌道長が大きくなるにつれて予測誤差は必然的に化合物となる。
本研究では, 自己回帰的ではなく, 拡散モデルを通して1つのパスでオン・ポリティカル・トラジェクタ全体を生成する, 新たな世界モデリング手法を提案する。
ポリシ誘導軌道拡散(polygrad, policy-guided orbital diffusion)というアプローチでは,方針の動作分布の勾配に加えて,ノイズモデルを用いて初期ランダム状態と動作の軌道をオンポリシー合成軌道に拡散する。
我々は,PolyGRAD,スコアベース生成モデル,および分類器誘導拡散モデル間の関係を分析する。
以上の結果から,PolyGRADは自己回帰拡散を除いて,中程度の軌跡の軌跡予測誤差において,最先端のベースラインよりも優れていた。
短期的には、PolyGRADは自己回帰拡散に匹敵する誤差を得るが、計算要求は著しく低い。
また,PolyGRADは,MuJoCo連続制御ドメインのイマジネーションにおいて,オンラインRLを介して実行ポリシーをトレーニングできることを示した。
このように、PolyGRADはスケーラブルで非自己回帰的なオン・ポリシーの世界モデリングのための新しいパラダイムを導入している。
関連論文リスト
- Imagine-2-Drive: High-Fidelity World Modeling in CARLA for Autonomous Vehicles [9.639797094021988]
本稿では,VISTAPlanとDPAの2つのコンポーネントで構成されるフレームワークであるImagine-2-Driveを紹介する。
DPAは、軌道予測のための多モード挙動をモデル化するための拡散に基づくポリシーである。
我々は,標準走行距離における技術(SOTA)世界モデルの現状を,ルート完了率と成功率でそれぞれ15%,20%上回った。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - Policy-Guided Diffusion [30.4597043728046]
多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。
本稿では,自己回帰的オフライン世界モデルに代わる政策誘導拡散法を提案する。
本研究では,政策誘導拡散モデルが目標分布の正規化形態をモデル化し,目標と行動の両ポリシの下で行動可能性のバランスをとることを示す。
論文 参考訳(メタデータ) (2024-04-09T14:46:48Z) - Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。
DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。
データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文 参考訳(メタデータ) (2024-03-10T22:27:21Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy [13.819070455425075]
我々は、すべての歴史的政策に対する経験的状態-行動訪問分布に適合するダイナミクスモデルを学習する。
そこで我々はtextitPolicy-adapted Dynamics Model Learning (PDML) という新しい動的モデル学習手法を提案する。
MuJoCoにおける一連の連続制御環境の実験では、PDMLは、最先端のモデルベースRL法と組み合わせて、サンプル効率と高い性能で大幅に改善されている。
論文 参考訳(メタデータ) (2022-07-25T12:45:58Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。