論文の概要: AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
- arxiv url: http://arxiv.org/abs/2602.14941v1
- Date: Mon, 16 Feb 2026 17:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.561218
- Title: AnchorWeave: World-Consistent Video Generation with Retrieved Local Spatial Memories
- Title(参考訳): AnchorWeave: ローカルな空間記憶を回復した世界一貫性のビデオ生成
- Authors: Zun Wang, Han Lin, Jaehong Yoon, Jaemin Cho, Yue Zhang, Mohit Bansal,
- Abstract要約: 既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
AnchorWeaveは、単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換える、メモリ拡張ビデオ生成フレームワークである。
実験によると、AnchorWeaveは視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上する。
- 参考スコア(独自算出の注目度): 78.78355829813793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining spatial world consistency over long horizons remains a central challenge for camera-controllable video generation. Existing memory-based approaches often condition generation on globally reconstructed 3D scenes by rendering anchor videos from the reconstructed geometry in the history. However, reconstructing a global 3D scene from multiple views inevitably introduces cross-view misalignment, as pose and depth estimation errors cause the same surfaces to be reconstructed at slightly different 3D locations across views. When fused, these inconsistencies accumulate into noisy geometry that contaminates the conditioning signals and degrades generation quality. We introduce AnchorWeave, a memory-augmented video generation framework that replaces a single misaligned global memory with multiple clean local geometric memories and learns to reconcile their cross-view inconsistencies. To this end, AnchorWeave performs coverage-driven local memory retrieval aligned with the target trajectory and integrates the selected local memories through a multi-anchor weaving controller during generation. Extensive experiments demonstrate that AnchorWeave significantly improves long-term scene consistency while maintaining strong visual quality, with ablation and analysis studies further validating the effectiveness of local geometric conditioning, multi-anchor control, and coverage-driven retrieval.
- Abstract(参考訳): 長い地平線上で空間空間の一貫性を維持することは、カメラ制御可能なビデオ生成における中心的な課題である。
既存のメモリベースのアプローチでは、歴史的に再構成された幾何学のアンカービデオをレンダリングすることで、グローバルに再構成された3Dシーンを条件付けすることが多い。
しかし、複数のビューからグローバルな3Dシーンを再構成することは、ポーズと深さ推定誤差が、ビュー全体でわずかに異なる3Dロケーションで同じ表面を再構成する原因となり、必然的に、クロスビューのミスアライメントをもたらす。
融合すると、これらの不整合はノイズ幾何学に蓄積され、条件信号が汚染され、生成品質が低下する。
メモリ拡張されたビデオ生成フレームワークであるAnchorWeaveを紹介した。これは単一の不整合グローバルメモリを複数のローカルな幾何学的メモリに置き換え、それらのクロスビュー不整合を再現することを学ぶ。
この目的のために、AnchorWeaveは、対象軌跡に沿ったカバレッジ駆動のローカルメモリ検索を行い、生成中に選択したローカルメモリをマルチアンカーウィービングコントローラを介して統合する。
広汎な実験により、アンコールウィートは、強い視覚的品質を維持しながら、長期的なシーンの一貫性を著しく向上し、アブレーションと分析研究により、局所幾何学的条件付け、マルチアンカー制御、カバレッジ駆動型検索の有効性がさらに検証された。
関連論文リスト
- Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Geometry-Aware Rotary Position Embedding for Consistent Video World Model [48.914346802616414]
ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
論文 参考訳(メタデータ) (2026-02-08T08:01:16Z) - EvoWorld: Evolving Panoramic World Generation with Explicit 3D Memory [40.346684158976494]
EvoWorldは、空間的に一貫した長距離探査を可能にするために、3Dメモリを進化させたパノラマビデオ生成を橋渡しする。
ビデオのみを合成する従来の最先端技術とは異なり、我々の重要な洞察は、この進化する3D再構成を明示的な空間的ガイダンスとして活用することにある。
長距離探査能力を評価するため,合成屋外環境,ハビタット屋内シーン,実世界のシナリオに挑戦する,初の総合的なベンチマークを導入した。
論文 参考訳(メタデータ) (2025-10-01T17:59:38Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。