論文の概要: Geometry-Aware Implicit Memory for Video World Models
- arxiv url: http://arxiv.org/abs/2606.02436v1
- Date: Mon, 01 Jun 2026 16:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.486518
- Title: Geometry-Aware Implicit Memory for Video World Models
- Title(参考訳): ビデオワールドモデルのための幾何学的意図的記憶
- Authors: Zhengxuan Wei, Xu Guo, Xinghui Li, Xunzhi Xiang, Min Wei, Yiran Zhu, Qiulin Wang, Xintao Wang, Pengfei Wan, Xiangwang Hou, Qi Fan,
- Abstract要約: GIM-Worldは、ビデオワールドモデルのための幾何学的な暗黙記憶フレームワークである。
カメラクエリ可能な幾何ヘッドは、凍結基礎モデルからトレーニング中にメモリに3Dシーン構造を蒸留する。
MINDの実験では、GIM-Worldは明示的メモリベースラインと暗黙的メモリベースラインの両方よりも、長期の幾何学的および視覚的一貫性を保っている。
- 参考スコア(独自算出の注目度): 29.522291951915577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video world models aim to simulate controllable visual environments, but long-horizon rollouts depend on what the model remembers after observations leave its native context window. Explicit memories retain frames or online 3D reconstructions, which can suffer from heuristic retrieval errors, redundant appearance storage, or reconstruction artifacts. Implicit memories compress history into a compact state, but existing designs are not explicitly constrained to encode cross-view scene geometry. We propose GIM-World, a geometry-aware implicit memory framework for video world models. A lightweight transformer encoder compresses variable-length history into fixed-size memory tokens, a camera-queryable geometry head distills 3D scene structure from a frozen foundation model into the memory during training, and an information-guided pruning rule keeps encoding cost bounded as history grows. The geometry teacher is discarded at inference, leaving a lightweight memory module. Experiments on MIND show that GIM-World better preserves long-horizon geometric and visual consistency than both explicit- and implicit-memory baselines.
- Abstract(参考訳): ビデオワールドモデルは、制御可能な視覚環境をシミュレートすることを目的としているが、長い水平ロールアウトは、観測結果がネイティブなコンテキストウインドウを離れた後のモデルが記憶するものに依存する。
明示的な記憶はフレームやオンラインの3D再構成を保持しており、これはヒューリスティックな検索エラー、冗長な外観記憶、あるいは復元アーティファクトに悩まされる可能性がある。
暗黙の記憶は歴史をコンパクトな状態に圧縮するが、既存のデザインはクロスビューシーンの幾何学をエンコードすることを明示的に制限していない。
ビデオワールドモデルのための幾何認識型暗黙記憶フレームワークであるGIM-Worldを提案する。
軽量なトランスコーダエンコーダは、可変長履歴を固定サイズのメモリトークンに圧縮し、カメラクエリ可能な幾何ヘッドは、凍結基礎モデルからトレーニング中のメモリに3Dシーン構造を蒸留し、情報誘導プルーニングルールは、履歴が大きくなるにつれて符号化コストが制限される。
幾何学教師は推論で捨てられ、軽量メモリモジュールを残します。
MINDの実験では、GIM-Worldは明示的メモリベースラインと暗黙的メモリベースラインの両方よりも、長期の幾何学的および視覚的一貫性を保っている。
関連論文リスト
- AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model [29.087865646035695]
カジュアルキャプチャーからシーンをモデリングするためにはスパースビュー3D再構成が不可欠であるが、非生成的再構築には依然として困難である。
我々は任意のスパース入力から復元するスケーラブルなフレームワークであるAnyReconを提案する。
実験では、不規則な入力、大きな視点ギャップ、長い軌道をまたいだ堅牢でスケーラブルな再構築が示されている。
論文 参考訳(メタデータ) (2026-04-21T17:59:47Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories [78.78355829813793]
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
論文 参考訳(メタデータ) (2026-02-16T17:23:08Z) - Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。