論文の概要: VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory
- arxiv url: http://arxiv.org/abs/2506.18903v1
- Date: Mon, 23 Jun 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.125629
- Title: VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory
- Title(参考訳): VMem:Surfel-indexed View Memoryによる連続的インタラクティブビデオシーン生成
- Authors: Runjia Li, Philip Torr, Andrea Vedaldi, Tomas Jakab,
- Abstract要約: Surfel-Indexed View Memory (VMem) は3次元表面要素に基づいて幾何学的にインデックス化することで過去のビューを記憶する機構である。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
我々は,シーンコヒーレンスとカメラ制御の維持における従来の手法と比較して,長期シーン合成ベンチマークの課題に対するアプローチを評価し,優れた性能を示す。
- 参考スコア(独自算出の注目度): 55.73900731190389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel memory mechanism to build video generators that can explore environments interactively. Similar results have previously been achieved by out-painting 2D views of the scene while incrementally reconstructing its 3D geometry, which quickly accumulates errors, or by video generators with a short context window, which struggle to maintain scene coherence over the long term. To address these limitations, we introduce Surfel-Indexed View Memory (VMem), a mechanism that remembers past views by indexing them geometrically based on the 3D surface elements (surfels) they have observed. VMem enables the efficient retrieval of the most relevant past views when generating new ones. By focusing only on these relevant views, our method produces consistent explorations of imagined environments at a fraction of the computational cost of using all past views as context. We evaluate our approach on challenging long-term scene synthesis benchmarks and demonstrate superior performance compared to existing methods in maintaining scene coherence and camera control.
- Abstract(参考訳): 本研究では,インタラクティブな環境探索が可能なビデオジェネレータを構築するための新しいメモリ機構を提案する。
同様に、シーンの2Dビューをアウトペイントし、即座にエラーを蓄積する3Dジオメトリをインクリメンタルに再構築することや、長期にわたってシーンコヒーレンスを維持するのに苦労する短いコンテキストウィンドウを持つビデオジェネレータによっても、同様の結果が得られてきた。
これらの制約に対処するために,Surfel-Indexed View Memory (VMem)を導入する。これは過去のビューを,観察した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することによって記憶するメカニズムである。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
提案手法は,これら関連ビューにのみ焦点をあてることで,過去のビューを文脈として利用する計算コストのごく一部で,想像された環境を一貫した探索を行う。
我々は,シーンコヒーレンスとカメラ制御の維持における従来の手法と比較して,長期シーン合成ベンチマークの課題に対するアプローチを評価し,優れた性能を示す。
関連論文リスト
- Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。
私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。
我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文 参考訳(メタデータ) (2025-06-02T15:41:31Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - SceneScape: Text-Driven Consistent Scene Generation [14.348512536556413]
本稿では,事前学習したテキスト・ツー・イメージモデルと事前学習した単眼深度予測モデルを組み合わせることで,このような動画をオンライン形式で生成する新しいフレームワークを提案する。
3次元の整合性を達成するための重要な課題に対処するため、オンラインテストタイムトレーニングを展開、現在のフレームの予測深度マップが合成シーンと幾何的に整合するように促す。
限定的な領域のみに適用できる以前の作品とは対照的に,本手法では,宇宙船や洞窟,あるいは氷の城の歩行など,多様な場面を創出する。
論文 参考訳(メタデータ) (2023-02-02T14:47:19Z) - Virtual Correspondence: Humans as a Cue for Extreme-View Geometry [104.09449367670318]
仮想対応(VC)という新しい概念を提示する。
古典的な対応とは異なり、VCはビューをまたいでコビジュアライズする必要はない。
極端な視点でカメラのポーズを回復するために、VCが古典的なバンドル調整とシームレスに統合できることを示します。
論文 参考訳(メタデータ) (2022-06-16T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。