論文の概要: Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation
- arxiv url: http://arxiv.org/abs/2604.18215v2
- Date: Tue, 21 Apr 2026 16:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.945309
- Title: Memorize When Needed: Decoupled Memory Control for Spatially Consistent Long-Horizon Video Generation
- Title(参考訳): 必要なときの記憶:空間的に一貫性のある長距離ビデオ生成のための分離メモリ制御
- Authors: Yanjun Guo, Zhengqiang Zhang, Pengfei Wang, Xinyue Liang, Zhiyuan Ma, Lei Zhang,
- Abstract要約: 本稿では,メモリコンディショニングと生成を分離する分離されたフレームワークを提案する。
我々は、歴史的観測から正確な空間整合性を学ぶために、軽量で独立したメモリブランチを使用している。
提案手法は,視覚的品質と空間的整合性の両方の観点から,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 22.26820693283945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatially consistent long-horizon video generation aims to maintain temporal and spatial consistency along predefined camera trajectories. Existing methods mostly entangle memory modeling with video generation, leading to inconsistent content during scene revisits and diminished generative capacity when exploring novel regions, even trained on extensive annotated data. To address these limitations, we propose a decoupled framework that separates memory conditioning from generation. Our approach significantly reduces training costs while simultaneously enhancing spatial consistency and preserving the generative capacity for novel scene exploration. Specifically, we employ a lightweight, independent memory branch to learn precise spatial consistency from historical observation. We first introduce a hybrid memory representation to capture complementary temporal and spatial cues from generated frames, then leverage a per-frame cross-attention mechanism to ensure each frame is conditioned exclusively on the most spatially relevant historical information, which is injected into the generative model to ensure spatial consistency. When generating new scenes, a camera-aware gating mechanism is proposed to mediate the interaction between memory and generation modules, enabling memory conditioning only when meaningful historical references exist. Compared with the existing method, our method is highly data-efficient, yet the experiments demonstrate that our approach achieves state-of-the-art performance in terms of both visual quality and spatial consistency.
- Abstract(参考訳): 空間的に一貫した長距離ビデオ生成は、予め定義されたカメラ軌道に沿って時間的・空間的一貫性を維持することを目的としている。
既存の手法では、主にビデオ生成とメモリモデリングが絡み合っており、シーン修正中にコンテンツが矛盾し、新しい領域を探索する際に生成能力が低下する。
これらの制約に対処するため,メモリコンディショニングを生成から分離する分離されたフレームワークを提案する。
提案手法は,空間的整合性を同時に向上し,新規なシーン探索のための生成能力を維持するとともに,トレーニングコストを大幅に削減する。
具体的には、歴史的観測から正確な空間整合性を学ぶために、軽量で独立したメモリブランチを用いる。
まず、生成したフレームから補完的な時間的・空間的手がかりを捕捉するハイブリッドメモリ表現を導入し、次いでフレーム単位のクロスアテンション機構を活用して、各フレームが空間的整合性を確保するために生成モデルに注入される、最も空間的に関係のある歴史的情報にのみ依存することを保証する。
新しいシーンを生成する際には、メモリと生成モジュール間の相互作用を仲介するカメラ対応ゲーティング機構が提案され、意味のある歴史的参照が存在する場合にのみメモリコンディショニングを可能にする。
既存の手法と比較して,本手法はデータ効率が高いが,本手法は視覚的品質と空間的整合性の両方の観点から,最先端の性能を実現することを実証した。
関連論文リスト
- Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models [56.44348799741838]
静的な背景の正確なアーキビストと動的対象の警戒トラッカーを同時に行うためにモデルを必要とする新しいパラダイムであるHybrid Memoryを導入する。
HM-Worldは、ハイブリッドメモリに特化した最初の大規模ビデオデータセットである。
また,メモリをトークンに圧縮し,時間的関連性に基づく検索機構を利用する専用メモリアーキテクチャHyDRAを提案する。
論文 参考訳(メタデータ) (2026-03-26T17:56:01Z) - Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [33.32047364623734]
Memorize-and-Generate(MAG)は、メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである。
我々は、記憶モデルを訓練して、履歴情報をコンパクトなKVキャッシュに圧縮し、この圧縮された表現を用いて、後続のフレームを合成する別個のジェネレータモデルを訓練する。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、優れた歴史的一貫性を実現することが示された。
論文 参考訳(メタデータ) (2025-12-21T14:02:53Z) - Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [45.363427511806385]
Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
論文 参考訳(メタデータ) (2025-10-03T17:35:16Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。