論文の概要: Consistent World Models via Foresight Diffusion
- arxiv url: http://arxiv.org/abs/2505.16474v1
- Date: Thu, 22 May 2025 10:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.209274
- Title: Consistent World Models via Foresight Diffusion
- Title(参考訳): 近視拡散による一貫した世界モデル
- Authors: Yu Zhang, Xingzhuo Guo, Haoran Xu, Mingsheng Long,
- Abstract要約: 我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
- 参考スコア(独自算出の注目度): 56.45012929930605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion and flow-based models have enabled significant progress in generation tasks across various modalities and have recently found applications in world modeling. However, unlike typical generation tasks that encourage sample diversity, world models entail different sources of uncertainty and require consistent samples aligned with the ground-truth trajectory, which is a limitation we empirically observe in diffusion models. We argue that a key bottleneck in learning consistent diffusion-based world models lies in the suboptimal predictive ability, which we attribute to the entanglement of condition understanding and target denoising within shared architectures and co-training schemes. To address this, we propose Foresight Diffusion (ForeDiff), a diffusion-based world modeling framework that enhances consistency by decoupling condition understanding from target denoising. ForeDiff incorporates a separate deterministic predictive stream to process conditioning inputs independently of the denoising stream, and further leverages a pretrained predictor to extract informative representations that guide generation. Extensive experiments on robot video prediction and scientific spatiotemporal forecasting show that ForeDiff improves both predictive accuracy and sample consistency over strong baselines, offering a promising direction for diffusion-based world models.
- Abstract(参考訳): 拡散モデルとフローベースモデルにより、様々なモードにわたる生成タスクが大幅に進歩し、最近世界モデリングにおける応用が発見されている。
しかし、サンプルの多様性を促進する典型的な生成タスクとは異なり、世界モデルは異なる不確実性の源を包含し、基底軌道に沿った一貫したサンプルを必要とする。
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、条件理解の絡み合いと、共有アーキテクチャや協調学習スキームにおける目標の偏りによる、最適下予測能力にあると主張している。
この問題を解決するために,拡散に基づく世界モデリングフレームワークであるForesight Diffusion (ForeDiff)を提案する。
ForeDiffは、決定論的予測ストリームを別途組み込んで、復調ストリームとは独立して条件付け入力を処理し、さらに事前学習した予測器を利用して、生成を導く情報表現を抽出する。
ロボットビデオ予測と科学的時空間予測に関する大規模な実験は、ForeDiffが強力なベースライン上で予測精度とサンプル一貫性の両方を改善し、拡散ベースの世界モデルに有望な方向を提供することを示している。
関連論文リスト
- Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - Generalized Diffusion Model with Adjusted Offset Noise [1.7767466724342067]
本稿では,厳密な確率的枠組みの中で自然に付加的な雑音を取り入れた一般化拡散モデルを提案する。
我々は、ある調整でノイズを相殺する理論的等価性を確立し、証拠の低い境界に基づいて損失関数を導出する。
合成データセットの実験により、我々のモデルは輝度に関する課題に効果的に対処し、高次元シナリオにおいて従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-04T08:57:03Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process [26.661721555671626]
本稿では,最先端の予測性能を実現する新しい多粒度時系列(MG-TSD)モデルを提案する。
われわれのアプローチは外部データに頼らず、様々な領域にまたがって汎用的で適用可能である。
論文 参考訳(メタデータ) (2024-03-09T01:15:03Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。