論文の概要: Spatia: Video Generation with Updatable Spatial Memory
- arxiv url: http://arxiv.org/abs/2512.15716v1
- Date: Wed, 17 Dec 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.124842
- Title: Spatia: Video Generation with Updatable Spatial Memory
- Title(参考訳): Spatia: 更新可能な空間記憶によるビデオ生成
- Authors: Jinjing Zhao, Fangyun Wei, Zhening Liu, Hongyang Zhang, Chang Xu, Yan Lu,
- Abstract要約: Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
- 参考スコア(独自算出の注目度): 60.21619361473996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video generation models struggle to maintain long-term spatial and temporal consistency due to the dense, high-dimensional nature of video signals. To overcome this limitation, we propose Spatia, a spatial memory-aware video generation framework that explicitly preserves a 3D scene point cloud as persistent spatial memory. Spatia iteratively generates video clips conditioned on this spatial memory and continuously updates it through visual SLAM. This dynamic-static disentanglement design enhances spatial consistency throughout the generation process while preserving the model's ability to produce realistic dynamic entities. Furthermore, Spatia enables applications such as explicit camera control and 3D-aware interactive editing, providing a geometrically grounded framework for scalable, memory-driven video generation.
- Abstract(参考訳): 既存のビデオ生成モデルは,映像信号の密度,高次元の性質のため,長期的空間的・時間的整合性を維持するのに苦慮している。
この制限を克服するために,空間記憶を意識した3次元シーンポイントクラウドを空間記憶として明示的に保存する空間記憶対応ビデオ生成フレームワークであるSpatiaを提案する。
Spatiaは、この空間記憶に条件付きビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
この動的静的な絡み合い設計は、モデルが現実的な動的実体を生成する能力を保ちながら、生成プロセス全体の空間的一貫性を高める。
さらに、Spatiaは、明示的なカメラ制御や3D対応のインタラクティブ編集などのアプリケーションを可能にし、拡張性のあるメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
関連論文リスト
- VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [45.363427511806385]
Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
論文 参考訳(メタデータ) (2025-10-03T17:35:16Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。