論文の概要: StateSpaceDiffuser: Bringing Long Context to Diffusion World Models
- arxiv url: http://arxiv.org/abs/2505.22246v1
- Date: Wed, 28 May 2025 11:27:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.572412
- Title: StateSpaceDiffuser: Bringing Long Context to Diffusion World Models
- Title(参考訳): StateSpaceDiffuser: 拡散ワールドモデルに長いコンテキストをもたらす
- Authors: Nedko Savov, Naser Kazemi, Deheng Zhang, Danda Pani Paudel, Xi Wang, Luc Van Gool,
- Abstract要約: StateSpaceDiffuserを導入し、長文タスクで拡散モデルを実行できるようにする。
この設計は拡散モデルの高忠実性合成を犠牲にすることなく長期記憶を復元する。
実験の結果、StateSpaceDiffuserは強力な拡散のみのベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 53.05314852577144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models have recently become promising tools for predicting realistic visuals based on actions in complex environments. However, their reliance on a short sequence of observations causes them to quickly lose track of context. As a result, visual consistency breaks down after just a few steps, and generated scenes no longer reflect information seen earlier. This limitation of the state-of-the-art diffusion-based world models comes from their lack of a lasting environment state. To address this problem, we introduce StateSpaceDiffuser, where a diffusion model is enabled to perform on long-context tasks by integrating a sequence representation from a state-space model (Mamba), representing the entire interaction history. This design restores long-term memory without sacrificing the high-fidelity synthesis of diffusion models. To rigorously measure temporal consistency, we develop an evaluation protocol that probes a model's ability to reinstantiate seen content in extended rollouts. Comprehensive experiments show that StateSpaceDiffuser significantly outperforms a strong diffusion-only baseline, maintaining a coherent visual context for an order of magnitude more steps. It delivers consistent views in both a 2D maze navigation and a complex 3D environment. These results establish that bringing state-space representations into diffusion models is highly effective in demonstrating both visual details and long-term memory.
- Abstract(参考訳): 近年、世界モデルは複雑な環境における行動に基づいて現実的な視覚を予測するための有望なツールとなっている。
しかし、短時間の観測に頼っているため、文脈の軌跡が急速に失われる。
結果として、視覚的な一貫性はほんの数ステップで崩壊し、生成されたシーンは、以前の情報を反映しない。
最先端の拡散に基づく世界モデルのこの制限は、持続的な環境状態の欠如に起因する。
この問題に対処するために、状態空間モデル(Mamba)からシーケンス表現を統合することで、拡散モデルを長文タスク上で実行可能にするStateSpaceDiffuserを導入する。
この設計は拡散モデルの高忠実性合成を犠牲にすることなく長期記憶を復元する。
時間的一貫性を厳密に測定するために, 拡張ロールアウトにおいて可視コンテンツを再確認するモデルの能力を探索する評価プロトコルを開発した。
総合的な実験により、StateSpaceDiffuserは強力な拡散のみのベースラインを著しく上回り、さらに多くのステップでコヒーレントな視覚的コンテキストを維持することが示されている。
2D迷路ナビゲーションと複雑な3D環境の両方で一貫したビューを提供する。
これらの結果は、状態空間表現を拡散モデルに組み込むことは、視覚的詳細と長期記憶の両方を示すのに非常に効果的であることを示す。
関連論文リスト
- Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - CoDiff: Conditional Diffusion Model for Collaborative 3D Object Detection [9.28605575548509]
協調型3次元物体検出は、自律運転の分野において重要な役割を担っている。
推定誤差と時間遅延のため、エージェント間の情報の融合はしばしば空間的および時間的ノイズを伴う特徴表現をもたらす。
我々は,新しいロバストな協調認識フレームワークであるCoDiffを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:20:52Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Discrete Diffusion Language Model for Efficient Text Summarization [19.267738861590487]
本稿では,トランスフォーマーのバックボーンが長いシーケンスを効果的に扱えるような,セマンティック・アウェア・ノーミング・プロセスを提案する。
提案手法は,Gigaword,CNN/DailyMail,Arxivの3つのベンチマーク要約データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-06-25T09:55:22Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference [31.97227651679233]
マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-25T22:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。