論文の概要: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
- arxiv url: http://arxiv.org/abs/2603.17117v1
- Date: Tue, 17 Mar 2026 20:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.38723
- Title: MosaicMem: Hybrid Spatial Memory for Controllable Video World Models
- Title(参考訳): MosaicMem: 制御可能なビデオワールドモデルのためのハイブリッド空間メモリ
- Authors: Wei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg,
- Abstract要約: Mosaic Memory(モザイクメモリ、MosaicMem)は、パッチを3Dに上げ、信頼性の高いローカライゼーションとターゲット検索を行うハイブリッド空間メモリである。
MosaicMemは、パッチ・アンド・コンプリートインターフェースを通じてクエリビューにパッチを構成する。
MosaicMemはさらに、ミニレベルナビゲーション、メモリベースのシーン編集、自動回帰ロールアウトを可能にする。
- 参考スコア(独自算出の注目度): 35.718669712119166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video diffusion models are moving beyond short, plausible clips toward world simulators that must remain consistent under camera motion, revisits, and intervention. Yet spatial memory remains a key bottleneck: explicit 3D structures can improve reprojection-based consistency but struggle to depict moving objects, while implicit memory often produces inaccurate camera motion even with correct poses. We propose Mosaic Memory (MosaicMem), a hybrid spatial memory that lifts patches into 3D for reliable localization and targeted retrieval, while exploiting the model's native conditioning to preserve prompt-following generation. MosaicMem composes spatially aligned patches in the queried view via a patch-and-compose interface, preserving what should persist while allowing the model to inpaint what should evolve. With PRoPE camera conditioning and two new memory alignment methods, experiments show improved pose adherence compared to implicit memory and stronger dynamic modeling than explicit baselines. MosaicMem further enables minute-level navigation, memory-based scene editing, and autoregressive rollout.
- Abstract(参考訳): ビデオ拡散モデルは、短い、もっともらしいクリップを超えて、カメラの動き、修正、介入の下で一貫していなければならない世界シミュレータへと移行している。
空間記憶は依然として重要なボトルネックであり、明示的な3D構造はリジェクションベースの一貫性を改善することができるが、動く物体を描くのに苦労する。
提案するMosaic Memory(モザイクメモリ, Mosaicメモリ, MosaicMem)は, パッチを3次元に持ち上げ, 信頼性の高いローカライゼーションとターゲット検索を行う。
MosaicMemは、パッチ・アンド・コンポジションインターフェースを通じて、クエリビューに空間的に整合したパッチを構成し、モデルが何を進化させるべきかを図りながら、持続するべきものを保存する。
PRoPEカメラコンディショニングと2つの新しいメモリアライメント手法により、暗黙のメモリと比較してポーズアテンデンスが改善され、明示的なベースラインよりも強力な動的モデリングが得られた。
MosaicMemはさらに、ミニレベルナビゲーション、メモリベースのシーン編集、自動回帰ロールアウトを可能にする。
関連論文リスト
- Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - OnlineSplatter: Pose-Free Online 3D Reconstruction for Free-Moving Objects [58.38338242973447]
OnlineSplatterは、RGBフレームから直接高品質でオブジェクト中心の3Dガウシアンを生成する新しいフレームワークである。
提案手法は,第1フレームを用いて再構成をアンカーし,高密度ガウス原始体を通して対象表現を漸進的に洗練する。
我々のコアコントリビューションは、潜伏した外見幾何学キーと明示的な方向キーを組み合わせたデュアルキーメモリモジュールです。
論文 参考訳(メタデータ) (2025-10-23T14:37:25Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [45.363427511806385]
Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
論文 参考訳(メタデータ) (2025-10-03T17:35:16Z) - Mem4D: Decoupling Static and Dynamic Memory for Dynamic Scene Reconstruction [17.587320705104343]
静的幾何学と動的運動のモデリングを分離する新しいフレームワークを提案する。
Mem4Dは、グローバルな整合性を持つ静的幾何学を同時に維持し、高忠実度で動的要素を再構成する。
論文 参考訳(メタデータ) (2025-08-11T12:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。