論文の概要: VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization
- arxiv url: http://arxiv.org/abs/2510.06175v1
- Date: Tue, 07 Oct 2025 17:35:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.391531
- Title: VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization
- Title(参考訳): VecInfer:Outlier-Suppressed Vector Quantizationによる低ビットKVキャッシュを用いた効率的なLCM推論
- Authors: Dingyu Yao, Chenxu Yang, Zhengyang Tong, Zheng Lin, Wei Liu, Jian Luan, Weiping Wang,
- Abstract要約: キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。
本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 23.781285860723248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Key-Value (KV) cache introduces substantial memory overhead during large language model (LLM) inference. Although existing vector quantization (VQ) methods reduce KV cache usage and provide flexible representational capacity across bit-widths, they suffer severe performance degradation at ultra-low bit-widths due to key cache outliers that hinder effective codebook utilization. To address this challenge, we propose VecInfer, a novel VQ method for aggressive KV cache compression while enabling efficient inference. By applying smooth and Hadamard transformations, VecInfer suppresses outliers in the key cache, enabling the codebook to comprehensively cover the original data distribution and thereby reducing quantization difficulty. To facilitate efficient deployment, we design an optimized CUDA kernel that fuses computation with dequantization to minimize memory access overhead. Extensive evaluations demonstrate that VecInfer consistently outperforms existing quantization baselines across both long-context understanding and mathematical reasoning tasks. With only 2-bit quantization, VecInfer achieves performance comparable to full precision, while delivering up to $\mathbf{2.7\times}$ speedup in large-batch self-attention computation and $\mathbf{8.3\times}$ reduction in single-batch end-to-end latency on Llama-3.1-8B with a 196k sequence length.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にかなりのメモリオーバーヘッドをもたらす。
既存のベクトル量子化(VQ)法は、KVキャッシュの使用を減らし、ビット幅をまたいだ柔軟な表現能力を提供するが、鍵キャッシュのアウトレイラにより、効率的なコードブック利用を妨げるため、超低ビット幅での大幅な性能劣化を被る。
この課題に対処するために,効率的な推論を実現するとともに,攻撃的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
スムーズなアダマール変換を適用することで、VecInferはキーキャッシュの外れ値を抑制し、コードブックが元のデータ分布を包括的にカバーし、量子化の難しさを軽減する。
効率的なデプロイを容易にするため,メモリアクセスオーバーヘッドを最小限に抑えるために,計算を復号化して融合する最適化されたCUDAカーネルを設計する。
広範囲な評価により、VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っていることが示される。
2ビットの量子化のみで、VecInferは最大$$\mathbf{2.7\times}$大きなバッチ自己アテンション計算のスピードアップと$\mathbf{8.3\times}$196kのシーケンス長を持つLlama-3.1-8Bでの単一バッチエンドツーエンドのレイテンシの削減を実現した。
関連論文リスト
- CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。