論文の概要: OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2603.05959v2
- Date: Mon, 09 Mar 2026 12:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.503274
- Title: OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer
- Title(参考訳): OVGGT: O(1) 定数コストストリーミングビジュアル幾何変換器
- Authors: Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen,
- Abstract要約: OVGGTはトレーニング不要のフレームワークで、メモリと計算を、シーケンスの長さに関わらず固定予算にバウンドする。
我々は,OVGGTが一定のVRAMエンベロープ内で任意の長さのビデオを処理し,最先端の3D幾何精度を実現していることを示す。
- 参考スコア(独自算出の注目度): 14.628152488797356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D geometry from streaming video requires continuous inference under bounded resources. Recent geometric foundation models achieve impressive reconstruction quality through all-to-all attention, yet their quadratic cost confines them to short, offline sequences. Causal-attention variants such as StreamVGGT enable single-pass streaming but accumulate an ever-growing KV cache, exhausting GPU memory within hundreds of frames and precluding the long-horizon deployment that motivates streaming inference in the first place. We present OVGGT, a training-free framework that bounds both memory and compute to a fixed budget regardless of sequence length. Our approach combines Self-Selective Caching, which leverages FFN residual magnitudes to compress the KV cache while remaining fully compatible with FlashAttention, with Dynamic Anchor Protection, which shields coordinate-critical tokens from eviction to suppress geometric drift over extended trajectories. Extensive experiments on indoor, outdoor, and ultra-long sequence benchmarks demonstrate that OVGGT processes arbitrarily long videos within a constant VRAM envelope while achieving state-of-the-art 3D geometric accuracy.
- Abstract(参考訳): ストリーミングビデオから3D幾何を再構成するには、制約付きリソースの下で連続的な推論が必要である。
最近の幾何学的基礎モデルは、すべての注意を払って印象的な復元品質を達成するが、その2次コストは短いオフラインシーケンスに制限される。
StreamVGGTのようなCausal-attentionの亜種は、シングルパスストリーミングを可能にするが、成長を続けるKVキャッシュを蓄積し、数百フレーム以内のGPUメモリを消費し、そもそもストリーミング推論を動機付ける長期展開を先取りする。
OVGGTは、メモリと計算の両方を、シーケンス長に関わらず固定予算にバウンドする、トレーニング不要のフレームワークである。
提案手法は,FFN残差量を利用した自己選択キャッシング(Self-Selective Caching)を用いて,FlashAttentionと完全互換を維持しながらKVキャッシュを圧縮し,動的アンカー保護(Dynamic Anchor Protection)を用いて,座標クリティカルトークンを消去から保護し,拡張軌道上の幾何的ドリフトを抑制する。
室内、屋外、超長周期のベンチマーク実験では、OVGGTが一定のVRAMエンベロープ内で任意に長いビデオを処理し、最先端の3D幾何学的精度を達成している。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、プルニングと量子化をシームレスに統合し、KVキャッシュを体系的に圧縮するチューニング不要のアプローチである。
XStreamVGGTは、ほとんど無視可能なパフォーマンス劣化を実現し、メモリ使用量を4.42$times$で大幅に削減する。
論文 参考訳(メタデータ) (2026-02-25T11:02:02Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams [22.277387867568834]
InfiniteVGGT (InfiniteVGT) は、ローリングメモリの概念を、有界で適応的で永続的に表現可能なKVキャッシュを通じて操作する因果的視覚幾何学変換器である。
本稿では,約1万フレームの連続3次元幾何推定を厳密に評価できるLong3Dベンチマークを提案する。
論文 参考訳(メタデータ) (2026-01-05T17:11:00Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、ジョイントプルーニングと量子化によってKVキャッシュを圧縮するチューニング不要のアプローチである。
我々は,XStreamVGTがメモリ使用量を大幅に削減しつつ,ほとんど無視可能な性能劣化を実現することを示す。
論文 参考訳(メタデータ) (2026-01-03T14:59:50Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - AutoScape: Geometry-Consistent Long-Horizon Scene Generation [69.2451355181344]
AutoScapeは長距離走行シーン生成フレームワークである。
20秒以上のリアルで幾何学的に一貫したドライビングビデオを生成する。
ロングホライゾンのFIDとFVDのスコアは、それぞれ48.6%、FVDは43.0%向上している。
論文 参考訳(メタデータ) (2025-10-23T16:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。