Fugu-MT 論文翻訳(概要): Diffusion World Model

論文の概要: Diffusion World Model

arxiv url: http://arxiv.org/abs/2402.03570v2
Date: Sun, 11 Feb 2024 17:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 20:35:41.266324
Title: Diffusion World Model
Title（参考訳）: 拡散世界モデル
Authors: Zihan Ding, Amy Zhang, Yuandong Tian, Qinqing Zheng
Abstract要約: 拡散世界モデル (DWM) は多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである。絶対的なパフォーマンスという点では、DWMは1ステップのダイナミックスモデルを大きく上回り、パフォーマンスは44%上昇した。
参考スコア（独自算出の注目度）: 48.50900740291317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Diffusion World Model (DWM), a conditional diffusion model capable of predicting multistep future states and rewards concurrently. As opposed to traditional one-step dynamics models, DWM offers long-horizon predictions in a single forward pass, eliminating the need for recursive queries. We integrate DWM into model-based value estimation, where the short-term return is simulated by future trajectories sampled from DWM. In the context of offline reinforcement learning, DWM can be viewed as a conservative value regularization through generative modeling. Alternatively, it can be seen as a data source that enables offline Q-learning with synthetic data. Our experiments on the D4RL dataset confirm the robustness of DWM to long-horizon simulation. In terms of absolute performance, DWM significantly surpasses one-step dynamics models with a $44\%$ performance gain, and achieves state-of-the-art performance.
Abstract（参考訳）: 我々は,多段階の将来の状態と報酬を同時に予測できる条件拡散モデルである拡散世界モデル(DWM)を紹介する。従来のワンステップのダイナミックスモデルとは対照的に、DWMは1つのフォワードパスで長い水平予測を提供するため、再帰的なクエリは不要である。我々はDWMをモデルベース値推定に統合し、DWMからサンプリングした将来の軌跡によって短期的回帰をシミュレートする。オフライン強化学習の文脈では、DWMは生成モデルによる保守的な価値正規化と見なすことができる。あるいは、合成データによるオフラインQ-ラーニングを可能にするデータソースとして見ることもできる。 D4RLデータセットに対する実験により,DWMの長軸シミュレーションに対するロバスト性が確認された。絶対性能の面では、DWMは1ステップのダイナミックスモデルを大幅に上回り、4,4\%のパフォーマンス向上を実現している。

関連論文リスト

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。 DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文参考訳（メタデータ） (2026-02-02T08:04:25Z)
Scalable Offline Model-Based RL with Action Chunks [60.80151356018376]
モデルに基づく強化学習が、オフラインRLにおける複雑で長期のタスクに対処するためのスケーラブルなレシピを提供するかどうかを検討する。我々はこのレシピを textbfModel-based RL with Action Chunks (MAC) と呼ぶ。 MAC はオフラインモデルベース RL アルゴリズムの中で,特に長期的タスクにおいて,最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2025-12-08T23:26:29Z)
M-STAR: Multi-Scale Spatiotemporal Autoregression for Human Mobility Modeling [16.41018877188885]
本研究では,多段階時空間自動回帰(M-STAR)を提案する。 M-STARは、モビリティパターンをエンコードするマルチスケール時空間トケナイザと、トランスフォーマーベースのデコーダを組み合わせて、次のスケールの自己回帰予測を行う。
論文参考訳（メタデータ） (2025-12-08T08:57:55Z)
FlowDAS: A Stochastic Interpolant-based Framework for Data Assimilation [15.64941169350615]
データ同化(DA)は、PDEが支配するシステムの状態を推定するために、動的モデルと観測を統合する。 FlowDASは、間補体を使用して状態遷移ダイナミクスを学習する生成DAフレームワークである。本研究では,FlowDASがモデル駆動法,ニューラル演算子,スコアベースベースラインを超える精度と物理的妥当性を示す。
論文参考訳（メタデータ） (2025-01-13T05:03:41Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Can AI be enabled to dynamical downscaling? A Latent Diffusion Model to mimic km-scale COSMO5.0\_CLM9 simulations [0.0]
ダウンスケーリング技術は、地球システムモデリングにおけるディープラーニング(DL)の最も顕著な応用の1つである。本研究では,イタリア上空のERA5データを2kmまでダウンスケールするために,LDM(Latent Diffusion Model)を適用した。我々のゴールは、最近の生成モデリングの進歩により、DLが数値力学モデルに匹敵する結果をもたらすことを実証することである。
論文参考訳（メタデータ） (2024-06-19T15:20:28Z)
GateLoop: Fully Data-Controlled Linear Recurrence for Sequence Modeling [0.0]
S4, S5, LRU, RetNet などの線形リカレントモデルを一般化したシーケンスモデルである GateLoop を開発した。 GateLoopは、自動回帰言語モデリングの既存のモデルよりも経験的に優れている。提案手法は,データ制御による相対配置情報の提供と解釈できることを示す。
論文参考訳（メタデータ） (2023-11-03T14:08:39Z)
Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文参考訳（メタデータ） (2023-10-11T18:38:28Z)
Data-driven low-dimensional dynamic model of Kolmogorov flow [0.0]
流れのダイナミクスを捉える低次モデル (ROM) はシミュレーションの計算コストの削減に重要である。この研究は、フローのダイナミクスと特性を効果的にキャプチャする最小次元モデルのためのデータ駆動フレームワークを示す。我々はこれをカオス的かつ断続的な行動からなる体制におけるコルモゴロフ流に適用する。
論文参考訳（メタデータ） (2022-10-29T23:05:39Z)
DeepVARwT: Deep Learning for a VAR Model with Trend [1.9862987223379664]
本稿では,トレンドと依存構造を最大限に推定するために,ディープラーニング手法を用いた新しい手法を提案する。この目的のためにLong Short-Term Memory (LSTM) ネットワークが使用される。シミュレーション研究と実データへの適用について述べる。
論文参考訳（メタデータ） (2022-09-21T18:23:03Z)
Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文参考訳（メタデータ） (2021-06-25T22:08:51Z)
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文参考訳（メタデータ） (2021-04-28T16:48:44Z)
Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文参考訳（メタデータ） (2020-10-27T17:54:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。