論文の概要: InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams
- arxiv url: http://arxiv.org/abs/2601.02281v1
- Date: Mon, 05 Jan 2026 17:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.291363
- Title: InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams
- Title(参考訳): InfiniteVGGT:エンドレスストリーム用接地変圧器
- Authors: Shuai Yuan, Yantai Yang, Xiaotian Yang, Xupeng Zhang, Zhonghao Zhao, Lingming Zhang, Zhipeng Zhang,
- Abstract要約: InfiniteVGGT (InfiniteVGT) は、ローリングメモリの概念を、有界で適応的で永続的に表現可能なKVキャッシュを通じて操作する因果的視覚幾何学変換器である。
本稿では,約1万フレームの連続3次元幾何推定を厳密に評価できるLong3Dベンチマークを提案する。
- 参考スコア(独自算出の注目度): 22.277387867568834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The grand vision of enabling persistent, large-scale 3D visual geometry understanding is shackled by the irreconcilable demands of scalability and long-term stability. While offline models like VGGT achieve inspiring geometry capability, their batch-based nature renders them irrelevant for live systems. Streaming architectures, though the intended solution for live operation, have proven inadequate. Existing methods either fail to support truly infinite-horizon inputs or suffer from catastrophic drift over long sequences. We shatter this long-standing dilemma with InfiniteVGGT, a causal visual geometry transformer that operationalizes the concept of a rolling memory through a bounded yet adaptive and perpetually expressive KV cache. Capitalizing on this, we devise a training-free, attention-agnostic pruning strategy that intelligently discards obsolete information, effectively ``rolling'' the memory forward with each new frame. Fully compatible with FlashAttention, InfiniteVGGT finally alleviates the compromise, enabling infinite-horizon streaming while outperforming existing streaming methods in long-term stability. The ultimate test for such a system is its performance over a truly infinite horizon, a capability that has been impossible to rigorously validate due to the lack of extremely long-term, continuous benchmarks. To address this critical gap, we introduce the Long3D benchmark, which, for the first time, enables a rigorous evaluation of continuous 3D geometry estimation on sequences about 10,000 frames. This provides the definitive evaluation platform for future research in long-term 3D geometry understanding. Code is available at: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
- Abstract(参考訳): 持続的で大規模な3次元視覚的幾何学的理解を可能にするという壮大なビジョンは、拡張性と長期的安定性の不可避な要求によって打ち砕かれています。
VGGTのようなオフラインモデルは、刺激的な幾何学能力を達成する一方で、バッチベースの性質は、ライブシステムには無関係である。
ライブ操作を意図したストリーミングアーキテクチャは不十分であることが証明されている。
既存の方法は、真の無限水平入力をサポートできないか、あるいは長いシーケンスで破滅的なドリフトに苦しむかのいずれかである。
InfiniteVGGTは、有界で適応的で永続的に表現可能なKVキャッシュを通じてローリングメモリの概念を運用する因果的視覚幾何学変換器である。
これに基づいて、私たちは、古い情報をインテリジェントに破棄し、新しいフレームごとにメモリを「ローリング」する、トレーニング不要で、注意に依存しないプルーニング戦略を考案した。
FlashAttentionと完全に互換性があるため、InfiniteVGGTは最終的に妥協を緩和し、無限水平ストリーミングを可能にすると同時に、既存のストリーミングメソッドを長期的な安定性で上回る。
このようなシステムの最終的なテストは、真に無限の地平線上でのパフォーマンスである。
この重要なギャップに対処するため,約10,000フレームの連続3次元幾何推定を厳密に評価できるLong3Dベンチマークを導入した。
これは、長期3次元幾何学理解における将来の研究のための決定的な評価プラットフォームを提供する。
https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
関連論文リスト
- WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion [78.20778143251171]
WorldWarpは、3D構造アンカーと2D生成ファインダを結合するフレームワークだ。
WorldWarpは、各ステップで3Dキャッシュを動的に更新することで、ビデオチャンク間の一貫性を維持する。
3Dロジックが構造をガイドし、拡散ロジックがテクスチャを完璧にすることで、最先端の忠実さを実現する。
論文 参考訳(メタデータ) (2025-12-22T18:53:50Z) - Endless World: Real-Time 3D-Aware Long Video Generation [57.411689597435334]
Endless Worldは、無限の3D一貫性のあるビデオ生成のためのリアルタイムフレームワークである。
本稿では,新たに生成されたコンテンツを既存のビデオフレームと整合させる条件付き自己回帰学習手法を提案する。
我々の3Dインジェクション機構は、拡張シーケンスを通して物理的妥当性と幾何的整合性を強制する。
論文 参考訳(メタデータ) (2025-12-13T19:06:12Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - VGGT-Long: Chunk it, Loop it, Align it -- Pushing VGGT's Limits on Kilometer-scale Long RGB Sequences [20.693979971244342]
VGGT-Long(VGGT-Long)は、モノクローナル3D再構築の限界を、キロスケールで無界の屋外環境に広げるシステムである。
KITTIデータセットとVirtual KITTIデータセットを用いて本手法の評価を行った。
結果は、現実の環境でスケーラブルなモノラルな3Dシーンに基礎モデルを活用する可能性を強調している。
論文 参考訳(メタデータ) (2025-07-22T10:39:04Z) - Breaking Down Monocular Ambiguity: Exploiting Temporal Evolution for 3D Lane Detection [79.98605061363999]
単眼3次元車線検出は,前頭側視像(FV)から車線の3次元位置を推定することを目的としている。
既存の手法は、単一フレーム入力の固有のあいまいさによって制約される。
車両が移動するときにシーンの時間的進化に埋め込まれたリッチな情報を解放することを提案する。
論文 参考訳(メタデータ) (2025-04-29T08:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。