論文の概要: XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
- arxiv url: http://arxiv.org/abs/2602.21780v1
- Date: Wed, 25 Feb 2026 11:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.804548
- Title: XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
- Title(参考訳): XStreamVGGT:KVキャッシュ圧縮を用いた超高効率ストリーミング映像幾何接地変圧器
- Authors: Zunhai Su, Weihao Ye, Hansen Feng, Keyu Fan, Jing Zhang, Dahai Yu, Zhengwu Liu, Ngai Wong,
- Abstract要約: XStreamVGGTは、プルニングと量子化をシームレスに統合し、KVキャッシュを体系的に圧縮するチューニング不要のアプローチである。
XStreamVGGTは、ほとんど無視可能なパフォーマンス劣化を実現し、メモリ使用量を4.42$times$で大幅に削減する。
- 参考スコア(独自算出の注目度): 20.18561757219652
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning-based 3D visual geometry models have significantly advanced with the advent of large-scale transformers. Among these, StreamVGGT leverages frame-wise causal attention to deliver robust and efficient streaming 3D reconstruction. However, it suffers from unbounded growth in the Key-Value (KV) cache due to the massive influx of vision tokens from multi-image and long-video inputs, leading to increased memory consumption and inference latency as input frames accumulate. This ultimately limits its scalability for long-horizon applications. To address this gap, we propose XStreamVGGT, a tuning-free approach that seamlessly integrates pruning and quantization to systematically compress the KV cache, enabling extremely memory-efficient streaming inference. Specifically, redundant KVs generated from multi-frame inputs are initially pruned to conform to a fixed KV memory budget using an efficient token-importance identification mechanism that maintains full compatibility with high-performance attention kernels (e.g., FlashAttention). Additionally, leveraging the inherent distribution patterns of KV tensors, we apply dimension-adaptive KV quantization within the pruning pipeline to further minimize memory overhead while preserving numerical accuracy. Extensive evaluations show that XStreamVGGT achieves mostly negligible performance degradation while substantially reducing memory usage by 4.42$\times$ and accelerating inference by 5.48$\times$, enabling practical and scalable streaming 3D applications. The code is available at https://github.com/ywh187/XStreamVGGT/.
- Abstract(参考訳): 学習に基づく3次元視覚幾何学モデルは、大規模トランスフォーマーの出現により大幅に進歩した。
StreamVGTはフレームの因果的注意を利用して、堅牢で効率的なストリーミング3D再構成を提供する。
しかし、マルチイメージおよびロングビデオ入力からの視覚トークンの大量流入によるキーバリュー(KV)キャッシュの非バウンド増加に悩まされ、入力フレームの蓄積に伴ってメモリ消費と推論レイテンシが増大する。
これにより、ロングホライゾンアプリケーションのスケーラビリティが制限される。
このギャップに対処するため,我々は,PruningとQuantizationをシームレスに統合し,KVキャッシュを体系的に圧縮し,極めてメモリ効率のよいストリーミング推論を可能にする,チューニング不要なXStreamVGTを提案する。
具体的には、マルチフレーム入力から生成された冗長なKVを最初は、高性能な注目カーネル(例えば、FlashAttention)との完全な互換性を維持する効率的なトークン重要度識別機構を使用して、固定KVメモリ予算に適合するようにプルーニングする。
さらに,KVテンソルの固有分布パターンを利用して,数値的精度を維持しつつ,メモリオーバーヘッドをさらに最小化するために,プルーニングパイプライン内に次元適応型KV量子化を適用する。
XStreamVGTはメモリ使用量を4.42$\times$に、推論を5.48$\times$に大幅に削減し、実用的でスケーラブルな3Dアプリケーションを可能にする。
コードはhttps://github.com/ywh187/XStreamVGT/で入手できる。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization [83.406036390582]
Quant VideoGen(QVG)は、自動回帰ビデオ拡散モデルのためのトレーニングフリーなKVキャッシュ量子化フレームワークである。
これにより、KVメモリを最大7.0倍に削減できる。
生成品質において、既存のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-02-03T00:54:32Z) - PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression [20.18561757219652]
XStreamVGGTは、ジョイントプルーニングと量子化によってKVキャッシュを圧縮するチューニング不要のアプローチである。
我々は,XStreamVGTがメモリ使用量を大幅に削減しつつ,ほとんど無視可能な性能劣化を実現することを示す。
論文 参考訳(メタデータ) (2026-01-03T14:59:50Z) - PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression [8.427136461713706]
汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。
PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
論文 参考訳(メタデータ) (2025-12-30T20:05:32Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。