論文の概要: Diffusion World Model
- arxiv url: http://arxiv.org/abs/2402.03570v2
- Date: Sun, 11 Feb 2024 17:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:35:41.266324
- Title: Diffusion World Model
- Title(参考訳): 拡散世界モデル
- Authors: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
- Abstract要約: 拡散世界モデル (DWM) は多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである。
絶対的なパフォーマンスという点では、DWMは1ステップのダイナミックスモデルを大きく上回り、パフォーマンスは44%上昇した。
- 参考スコア(独自算出の注目度): 48.50900740291317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Diffusion World Model (DWM), a conditional diffusion model
capable of predicting multistep future states and rewards concurrently. As
opposed to traditional one-step dynamics models, DWM offers long-horizon
predictions in a single forward pass, eliminating the need for recursive
queries. We integrate DWM into model-based value estimation, where the
short-term return is simulated by future trajectories sampled from DWM. In the
context of offline reinforcement learning, DWM can be viewed as a conservative
value regularization through generative modeling. Alternatively, it can be seen
as a data source that enables offline Q-learning with synthetic data. Our
experiments on the D4RL dataset confirm the robustness of DWM to long-horizon
simulation. In terms of absolute performance, DWM significantly surpasses
one-step dynamics models with a $44\%$ performance gain, and achieves
state-of-the-art performance.
- Abstract(参考訳): 我々は,多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである拡散世界モデル(DWM)を紹介する。
従来のワンステップのダイナミックスモデルとは対照的に、DWMは1つのフォワードパスで長い水平予測を提供するため、再帰的なクエリは不要である。
我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。
オフライン強化学習の文脈では、DWMは生成モデルによる保守的な価値正規化と見なすことができる。
あるいは、合成データによるオフラインQ-ラーニングを可能にするデータソースとして見ることもできる。
D4RLデータセットに対する実験により,DWMの長軸シミュレーションに対するロバスト性が確認された。
絶対性能の面では、DWMは1ステップのダイナミックスモデルを大幅に上回り、4,4\%のパフォーマンス向上を実現している。
関連論文リスト
- Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Data-driven low-dimensional dynamic model of Kolmogorov flow [0.0]
流れのダイナミクスを捉える低次モデル (ROM) はシミュレーションの計算コストの削減に重要である。
この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。
我々はこれをカオス的かつ断続的な行動からなる体制におけるコルモゴロフ流に適用する。
論文 参考訳(メタデータ) (2022-10-29T23:05:39Z) - DeepVARwT: Deep Learning for a VAR Model with Trend [1.9862987223379664]
本稿では,トレンドと依存構造を最大限に推定するために,ディープラーニング手法を用いた新しい手法を提案する。
この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。
シミュレーション研究と実データへの適用について述べる。
論文 参考訳(メタデータ) (2022-09-21T18:23:03Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。