論文の概要: Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval
- arxiv url: http://arxiv.org/abs/2605.09644v1
- Date: Sun, 10 May 2026 16:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.539809
- Title: Attention Itself Could Retrieve.RetrieveVGGT: Training-Free Long Context Streaming 3D Reconstruction via Query-Key Similarity Retrieval
- Title(参考訳): RetrieveVGGT: Query-Key similarity Retrievalによるトレーニングフリーのロングコンテキストストリーミング3D再構成
- Authors: Zichen Zou, Xiaosong Jia, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: Visual Geometry Grounded Transformer (VGGT)はスケーラブルなTransformerアーキテクチャを通じて3D再構成を行う。
StreamVGGTは因果的にストリーミングを可能にするが、KVキャッシュはフレームとともに線形に成長し、メモリオーバーフローと品質劣化を引き起こす。
本稿では、VGGTのコンテキスト構築を検索問題として定式化する、トレーニング不要なフレームワークRetrieveVGGTを提案する。
- 参考スコア(独自算出の注目度): 86.05617542701644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Geometry Grounded Transformer (VGGT) advances 3D reconstruction via scalable Transformer architecture, but the quadratic complexity of global attention prevents long context application. StreamVGGT enables streaming with causal attention, yet its KV cache grows linearly with frames, causing memory overflow and quality degradation. We present RetrieveVGGT, a training-free framework, which formulates context construction for VGGT as a retrieval problem. By retrieving a fixed number of relevant frames at each step, VGGT maintains a controllable memory budget, which is close to its training context length. Interestingly, we find that the similarity between current frame queries and cached history frame keys at the first global attention layer of VGGT is already a strong indicator of relevance, eliminating the need for additional learned scoring. To enhance information diversity similar to a recommender system, we propose Segment Sampling so that the retrieval spans distinct relevant segments rather than a single high-similarity region. We design a pose-aware spatial memory mechanism that organizes history frames according to their already estimated camera poses, enabling location-aware retrieval. Extensive experiments demonstrate that RetrieveVGGT achieves state-of-the-art performance, outperforming StreamVGGT, TTT3R, and InfiniteVGGT while maintaining constant memory usage regardless of sequence length. Code is available at https://github.com/zzctmd/RetrieveVGGT.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT)はスケーラブルなTransformerアーキテクチャを通じて3次元再構成を行うが、グローバルアテンションの2次複雑さは長期のコンテキスト適用を妨げる。
StreamVGGTは因果的にストリーミングを可能にするが、KVキャッシュはフレームとともに線形に成長し、メモリオーバーフローと品質劣化を引き起こす。
本稿では,VGGTのコンテキスト構築を検索問題として定式化する,学習不要のフレームワークRetrieveVGGTを提案する。
各ステップで一定の数の関連フレームを取得することで、VGGTはトレーニングコンテキスト長に近い制御可能なメモリ予算を維持する。
興味深いことに、VGGTの第1グローバルアテンション層における現在のフレームクエリとキャッシュされた履歴フレームキーの類似性は、すでに関連性の強い指標であり、学習スコアの追加の必要性を排除している。
推薦システムに類似した情報の多様性を高めるため,単一の高相似領域ではなく,特定の関連セグメントにまたがるセグメンションサンプリングを提案する。
我々は、現在推定されているカメラのポーズに応じて履歴フレームを整理し、位置認識検索を可能にする、ポーズ対応空間記憶機構を設計する。
大規模な実験により、RetrieveVGTは、ストリームVGGT, TTT3R, InfiniteVGGTより優れ、シーケンス長に関わらず一定のメモリ使用率を維持しながら、最先端のパフォーマンスを達成することが示された。
コードはhttps://github.com/zzctmd/RetrieveVGT.comで入手できる。
関連論文リスト
- Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT [3.5844726281072448]
StreamVGGTのようなストリーミングビジュアルジオメトリ変換は、強力なオンライン3D知覚を可能にするが、境界のないKVキャッシュの増大に悩まされる。
フレーム駆動型ローリング明示メモリフレームワークであるFrameVGGTを提案し,各フレームのインクリメンタルKVコントリビューションをコヒーレントエビデンスブロックとして扱う。
論文 参考訳(メタデータ) (2026-03-08T15:46:03Z) - OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer [14.628152488797356]
OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
論文 参考訳(メタデータ) (2026-03-06T06:44:17Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。