論文の概要: Retrieve What's Missing: Coverage-Maximizing Retrieval for Consistent Long Video Generation
- arxiv url: http://arxiv.org/abs/2606.02479v1
- Date: Mon, 01 Jun 2026 16:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.510604
- Title: Retrieve What's Missing: Coverage-Maximizing Retrieval for Consistent Long Video Generation
- Title(参考訳): 欠落を検索する:一貫した長時間ビデオ生成のためのカバレッジ最大化検索
- Authors: Minseok Joo, Dogyun Park, Taehoon Lee, Kyujin Lee, Hyunwoo J. Kim,
- Abstract要約: 自己回帰ビデオ生成のためのCOVRAG(Coverage-Maximizing Retrieval-Augmented Generation)を提案する。
COVRAGは、トレーニング済みの3Dプリエンプションを使用して、軽量な3Dメモリエビデンスとしてターゲットビューカバレッジマップを構築する。
RealEstate10K と DL3DV10K の実験では、COVRAG はベースラインに比べて低レイテンシを維持しながら、長い水平の幾何的整合性を改善する。
- 参考スコア(独自算出の注目度): 31.251444284229397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maintaining long-term geometric consistency remains challenging for long-horizon autoregressive video generation. Memory-augmented generative models address this by retrieving historical frames, but their effectiveness depends on two key design choices: what 3D-geometric evidence should represent past observations, and how memory frames should be selected from this evidence. Existing methods often rely on camera poses or field-of-view overlap, which are lightweight but too coarse to reason about pixel-wise visibility, or use explicit 3D reconstruction, which provides fine-grained evidence but is costly to maintain over long rollouts. We propose Coverage-Maximizing Retrieval-Augmented Generation (COVRAG), a depth-based memory retrieval framework that uses pretrained 3D priors to construct a target-view coverage map as lightweight 3D memory evidence. For frame selection, COVRAG maximizes residual coverage gain, iteratively retrieving frames that explain target-view regions not covered by the current context or previously selected memories. To improve scalability in long-video generation, we introduce sliding-window depth caching for efficient geometry estimation. Experiments on RealEstate10K and DL3DV10K show that COVRAG improves long-horizon geometric consistency while maintaining low latency compared to baselines.
- Abstract(参考訳): 長時間の幾何学的整合性を維持することは、長時間の自己回帰ビデオ生成において依然として困難である。
メモリ拡張生成モデルは、過去のフレームを取得することでこの問題に対処するが、その有効性は2つの重要な設計選択に依存している。
既存の方法は、カメラのポーズや視野のオーバーラップに頼りがちで、ピクセルの視認性や明快な3D再構成は、細かな証拠を提供するが、長期にわたるロールアウトの維持には費用がかかる。
本報告では,事前学習した3D先行データを用いて,軽量な3Dメモリエビデンスとしてターゲットビューカバレッジマップを構築する,深度に基づくメモリ検索フレームワークであるCOVRAGを提案する。
フレーム選択のために、COVRAGは、現在のコンテキストや以前選択されたメモリでカバーされていないターゲットビュー領域を説明するフレームを反復的に検索する、残留カバレッジゲインを最大化する。
長ビデオ生成におけるスケーラビリティ向上のために,効率的な幾何推定のためのスライディングウインドウ深さキャッシングを導入する。
RealEstate10K と DL3DV10K の実験により、COVRAG はベースラインに比べて低レイテンシを維持しながら、長い水平の幾何的整合性を改善することが示された。
関連論文リスト
- Q-GeoMem: Question-Guided Geometric Memory for Video Spatial Reasoning [53.96129188781529]
ビデオ空間推論のための質問誘導幾何メモリフレームワークを提案する。
カメラ条件の幾何学を 視覚トークンに注入し 2つの相補記憶を維持します
本研究は,評価空間推論モデルにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-05-26T17:26:29Z) - Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval [86.05617542701644]
Visual Geometry Grounded Transformer (VGGT)はスケーラブルなTransformerアーキテクチャを通じて3D再構成を行う。
StreamVGGTは因果的にストリーミングを可能にするが、KVキャッシュはフレームとともに線形に成長し、メモリオーバーフローと品質劣化を引き起こす。
本稿では、VGGTのコンテキスト構築を検索問題として定式化する、トレーニング不要なフレームワークRetrieveVGGTを提案する。
論文 参考訳(メタデータ) (2026-05-10T16:41:54Z) - Ray-Aware Pointer Memory with Adaptive Updates for Streaming 3D Reconstruction [19.132257919770947]
連続画像ストリームからの3次元再構成には、正確な幾何集約と安定したメモリ管理が必要である。
空間的位置と視線方向の両方を明示的にモデル化した3次元再構成のためのレイアウェア・ポインターメモリを提案する。
われわれのアプローチは、画像ストリームからのスケーラブルでドリフトに耐性のあるオンライン3D再構成のための、原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-07T06:42:11Z) - AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model [29.087865646035695]
カジュアルキャプチャーからシーンをモデリングするためにはスパースビュー3D再構成が不可欠であるが、非生成的再構築には依然として困難である。
我々は任意のスパース入力から復元するスケーラブルなフレームワークであるAnyReconを提案する。
実験では、不規則な入力、大きな視点ギャップ、長い軌道をまたいだ堅牢でスケーラブルな再構築が示されている。
論文 参考訳(メタデータ) (2026-04-21T17:59:47Z) - Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。