論文の概要: DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions
- arxiv url: http://arxiv.org/abs/2509.19538v1
- Date: Tue, 23 Sep 2025 20:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.590642
- Title: DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions
- Title(参考訳): DAWM:行動推論遷移によるオフライン強化学習のための拡散行動世界モデル
- Authors: Zongyue Li, Xiao Han, Yusong Li, Niklas Strauss, Matthias Schubert,
- Abstract要約: 本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
- 参考スコア(独自算出の注目度): 6.723690093335988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based world models have demonstrated strong capabilities in synthesizing realistic long-horizon trajectories for offline reinforcement learning (RL). However, many existing methods do not directly generate actions alongside states and rewards, limiting their compatibility with standard value-based offline RL algorithms that rely on one-step temporal difference (TD) learning. While prior work has explored joint modeling of states, rewards, and actions to address this issue, such formulations often lead to increased training complexity and reduced performance in practice. We propose \textbf{DAWM}, a diffusion-based world model that generates future state-reward trajectories conditioned on the current state, action, and return-to-go, paired with an inverse dynamics model (IDM) for efficient action inference. This modular design produces complete synthetic transitions suitable for one-step TD-based offline RL, enabling effective and computationally efficient training. Empirically, we show that conservative offline RL algorithms such as TD3BC and IQL benefit significantly from training on these augmented trajectories, consistently outperforming prior diffusion-based baselines across multiple tasks in the D4RL benchmark.
- Abstract(参考訳): 拡散に基づく世界モデルは、オフライン強化学習(RL)のための現実的な長距離軌道を合成する強力な能力を示している。
しかし、既存の多くのメソッドは状態や報酬と共に直接アクションを生成しておらず、一段階の時間差(TD)学習に依存する標準値ベースのオフラインRLアルゴリズムとの互換性を制限している。
これまでの研究は、この問題に対処するための状態、報酬、行動の合同モデリングを探索してきたが、そのような定式化はしばしば訓練の複雑さを増大させ、実際のパフォーマンスを低下させる。
本稿では,現在状態, 動作, リターン・ツー・ゴーに条件付き, 効率的な行動推論のための逆ダイナミクスモデル (IDM) と組み合わせた, 将来の状態逆トラジェクトリを生成する拡散型世界モデルである \textbf{DAWM} を提案する。
このモジュラー設計は、ワンステップのTDベースのオフラインRLに適した完全な合成遷移を生成し、効果的で効率的なトレーニングを可能にする。
実験的に、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けており、D4RLベンチマークの複数のタスクにおける事前拡散ベースのベースラインを一貫して上回っている。
関連論文リスト
- Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - Are Expressive Models Truly Necessary for Offline RL? [18.425797519857113]
シークエンシャルモデリングでは、適切なポリシー性能を確保するために、軌道データの長い地平線を越えて正確なダイナミクスを捉える必要がある。
浅層2層モデルほど単純な軽量モデルは、正確な動的一貫性と逐次モデリングエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2024-12-15T17:33:56Z) - Large Vision Model-Enhanced Digital Twin with Deep Reinforcement Learning for User Association and Load Balancing in Dynamic Wireless Networks [17.041443813376546]
本稿では,無線ネットワークのための大型ビジョンモデル (LVM) 拡張ディジタルツイン (DT) を提案する。
本稿では,動的ユーザ数,分布,移動パターンを有するネットワークにおけるユーザアソシエーションとロードバランシングのための並列DRL法を提案する。
数値計算の結果,LVM強化DTは実環境とほぼ同等の訓練効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-10T04:54:48Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Backward Imitation and Forward Reinforcement Learning via Bi-directional
Model Rollouts [11.4219428942199]
従来のモデルベース強化学習(RL)手法は、学習力学モデルを用いて前方ロールアウトトレースを生成する。
本稿では,後方模倣とフォワード強化学習(BIFRL)フレームワークを提案する。
BIFRLは、より効率的な方法で高価値状態に到達し、探索するエージェントに権限を与える。
論文 参考訳(メタデータ) (2022-08-04T04:04:05Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。