論文の概要: XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
- arxiv url: http://arxiv.org/abs/2601.01204v1
- Date: Sat, 03 Jan 2026 14:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.079987
- Title: XStreamVGGT: Extremely Memory-Efficient Streaming Vision Geometry Grounded Transformer with KV Cache Compression
- Title(参考訳): XStreamVGGT:KVキャッシュ圧縮を用いた超高効率ストリーミング映像幾何接地変圧器
- Authors: Zunhai Su, Weihao Ye, Hansen Feng, Keyu Fan, Jing Zhang, Dahai Yu, Zhengwu Liu, Ngai Wong,
- Abstract要約: XStreamVGGTは、ジョイントプルーニングと量子化によってKVキャッシュを圧縮するチューニング不要のアプローチである。
我々は,XStreamVGTがメモリ使用量を大幅に削減しつつ,ほとんど無視可能な性能劣化を実現することを示す。
- 参考スコア(独自算出の注目度): 20.18561757219652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based 3D visual geometry models have benefited substantially from large-scale transformers. Among these, StreamVGGT leverages frame-wise causal attention for strong streaming reconstruction, but suffers from unbounded KV cache growth, leading to escalating memory consumption and inference latency as input frames accumulate. We propose XStreamVGGT, a tuning-free approach that systematically compresses the KV cache through joint pruning and quantization, enabling extremely memory-efficient streaming inference. Specifically, redundant KVs originating from multi-view inputs are pruned through efficient token importance identification, enabling a fixed memory budget. Leveraging the unique distribution of KV tensors, we incorporate KV quantization to further reduce memory consumption. Extensive evaluations show that XStreamVGGT achieves mostly negligible performance degradation while substantially reducing memory usage by 4.42$\times$ and accelerating inference by 5.48$\times$, enabling scalable and practical streaming 3D applications. The code is available at https://github.com/ywh187/XStreamVGGT/.
- Abstract(参考訳): 学習に基づく3次元視覚幾何学モデルは、大規模なトランスフォーマーから大きく恩恵を受けている。
中でもStreamVGTは、フレームの因果的注意を強力なストリーミング再構成に活用するが、無制限なKVキャッシュの増大に悩まされ、入力フレームの蓄積に伴ってメモリ消費と推論遅延がエスカレートする。
我々は,共同プルーニングと量子化によってKVキャッシュを体系的に圧縮し,極めてメモリ効率のよいストリーミング推論を可能にする,チューニング不要なXStreamVGTを提案する。
具体的には、マルチビュー入力から派生した冗長なKVを効率的なトークンの重要度識別によって切断し、固定メモリ予算を実現する。
KVテンソルの独特な分布を利用して、KV量子化を取り入れ、メモリ消費をさらに削減する。
XStreamVGTはメモリ使用量を4.42$\times$で大幅に削減し、推論を5.48$\times$で加速し、スケーラブルで実用的な3Dアプリケーションを可能にする。
コードはhttps://github.com/ywh187/XStreamVGT/で入手できる。
関連論文リスト
- PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression [8.427136461713706]
汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。
PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
論文 参考訳(メタデータ) (2025-12-30T20:05:32Z) - KV-CAR: KV Cache Compression using Autoencoders and KV Reuse in Large Language Models [3.5171501100868876]
KVキャッシュはシーケンス長と埋め込み次元で成長し、しばしばモデル自体のメモリフットプリントを超える。
KV CARは,モデル忠実性を維持しつつ,KVキャッシュストレージを大幅に削減する,統一的で非依存なアーキテクチャフレームワークである。
Wikitext、C4、PIQA、WinograndeデータセットにわたるGPT 2とTinyLLaMAモデルの評価は、KV CARが最大47.85パーセントのKVキャッシュメモリ削減を達成したことを示している。
論文 参考訳(メタデータ) (2025-12-07T08:40:52Z) - KVComp: A High-Performance, LLM-Aware, Lossy Compression Framework for KV Cache [7.019967158501771]
長文生成に最適化された汎用的で効率的なKVキャッシュ管理フレームワークであるKVCompを提案する。
KVCompは、KVキャッシュデータ特性に特化して設計された新しい損失圧縮技術を採用している。
KVCompは,従来の手法に比べて最大83%のメモリ削減率で,平均47%,最大83%の高速化を実現している。
論文 参考訳(メタデータ) (2025-08-30T18:25:19Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction [33.936381781692994]
DiffKVは効率的なKVキャッシュ圧縮のための新しいフレームワークである。
KVキャッシュにおける3つのレベルの分化を利用する。
KVキャッシュを2.7Times$から5.7times$に圧縮できる。
論文 参考訳(メタデータ) (2024-12-04T08:51:23Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。