論文の概要: Diffusion World Model: Future Modeling Beyond Step-by-Step Rollout for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2402.03570v4
- Date: Tue, 15 Oct 2024 20:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:39:32.237925
- Title: Diffusion World Model: Future Modeling Beyond Step-by-Step Rollout for Offline Reinforcement Learning
- Title(参考訳): 拡散世界モデル:オフライン強化学習のためのステップ・バイ・ステップ・ロールアウトを超えた将来のモデリング
- Authors: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng,
- Abstract要約: 拡散世界モデル (DWM) は多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである。
我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。
絶対的なパフォーマンスという点では、DWMは1ステップのダイナミックスモデルを大きく上回り、パフォーマンスは44%上昇した。
- 参考スコア(独自算出の注目度): 45.21525873954181
- License:
- Abstract: We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive queries. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a $44\%$ performance gain, and is comparable to or slightly surpassing their model-free counterparts.
- Abstract(参考訳): 我々は,多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである拡散世界モデル(DWM)を紹介する。
従来のワンステップのダイナミックスモデルとは対照的に、DWMは1つのフォワードパスで長い水平予測を提供するため、再帰的なクエリは不要である。
我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。
オフライン強化学習の文脈では、DWMは生成的モデリングによる保守的な価値正規化と見なすことができる。
あるいは、合成データによるオフラインQ-ラーニングを可能にするデータソースとして見ることもできる。
D4RLデータセットに対する実験により,DWMの長軸シミュレーションに対するロバスト性が確認された。
絶対的なパフォーマンスという点では、DWMは1ステップのダイナミックスモデルを大幅に上回り、パフォーマンスは4,4\%で、モデルフリーモデルに匹敵するか、わずかに上回っている。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。
また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。
本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。
我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文 参考訳(メタデータ) (2024-06-19T15:20:28Z) - GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling [0.0]
S4, S5, LRU, RetNet などの線形リカレントモデルを一般化したシーケンスモデルである GateLoop を開発した。
GateLoopは、自動回帰言語モデリングの既存のモデルよりも経験的に優れている。
提案手法は,データ制御による相対配置情報の提供と解釈できることを示す。
論文 参考訳(メタデータ) (2023-11-03T14:08:39Z) - Data-driven low-dimensional dynamic model of Kolmogorov flow [0.0]
流れのダイナミクスを捉える低次モデル (ROM) はシミュレーションの計算コストの削減に重要である。
この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。
我々はこれをカオス的かつ断続的な行動からなる体制におけるコルモゴロフ流に適用する。
論文 参考訳(メタデータ) (2022-10-29T23:05:39Z) - DeepVARwT: Deep Learning for a VAR Model with Trend [1.9862987223379664]
本稿では,トレンドと依存構造を最大限に推定するために,ディープラーニング手法を用いた新しい手法を提案する。
この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。
シミュレーション研究と実データへの適用について述べる。
論文 参考訳(メタデータ) (2022-09-21T18:23:03Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。