Fugu-MT 論文翻訳(概要): MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

論文の概要: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

arxiv url: http://arxiv.org/abs/2603.17117v1
Date: Tue, 17 Mar 2026 20:19:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.38723
Title: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
Title（参考訳）: MosaicMem: 制御可能なビデオワールドモデルのためのハイブリッド空間メモリ
Authors: Wei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg,
Abstract要約: Mosaic Memory(モザイクメモリ、MosaicMem)は、パッチを3Dに上げ、信頼性の高いローカライゼーションとターゲット検索を行うハイブリッド空間メモリである。 MosaicMemは、パッチ・アンド・コンプリートインターフェースを通じてクエリビューにパッチを構成する。 MosaicMemはさらに、ミニレベルナビゲーション、メモリベースのシーン編集、自動回帰ロールアウトを可能にする。
参考スコア（独自算出の注目度）: 35.718669712119166
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.
Abstract（参考訳）: ビデオ拡散モデルは、短い、もっともらしいクリップを超えて、カメラの動き、修正、介入の下で一貫していなければならない世界シミュレータへと移行している。空間記憶は依然として重要なボトルネックであり、明示的な3D構造はリジェクションベースの一貫性を改善することができるが、動く物体を描くのに苦労する。提案するMosaic Memory(モザイクメモリ, Mosaicメモリ, MosaicMem)は, パッチを3次元に持ち上げ, 信頼性の高いローカライゼーションとターゲット検索を行う。 MosaicMemは、パッチ・アンド・コンポジションインターフェースを通じて、クエリビューに空間的に整合したパッチを構成し、モデルが何を進化させるべきかを図りながら、持続するべきものを保存する。 PRoPEカメラコンディショニングと2つの新しいメモリアライメント手法により、暗黙のメモリと比較してポーズアテンデンスが改善され、明示的なベースラインよりも強力な動的モデリングが得られた。 MosaicMemはさらに、ミニレベルナビゲーション、メモリベースのシーン編集、自動回帰ロールアウトを可能にする。

論文の概要: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

関連論文リスト