論文の概要: AnTKV: Anchor Token-Aware Sub-Bit Vector Quantization for KV Cache in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19505v1
- Date: Tue, 24 Jun 2025 10:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.598814
- Title: AnTKV: Anchor Token-Aware Sub-Bit Vector Quantization for KV Cache in Large Language Models
- Title(参考訳): AnTKV:大規模言語モデルにおけるKVキャッシュのためのアンカートークン対応サブビットベクトル量子化
- Authors: Zeyu Li, Chuanfu Xiao, Yang Wang, Xiang Liu, Zhenheng Tang, Baotong Lu, Mao Yang, Xinyu Chen, Xiaowen Chu,
- Abstract要約: AnTKVは、Anchor Token対応ベクター量子化を利用してKVキャッシュを圧縮する新しいフレームワークである。
AnTKVは、Mistral-7B上での超低ビット量子化の下では、FP16ベースラインの4.73に比べて、1ビットで6.32、0.375ビットで8.87と非常に低いパープレキシティを実現する。
- 参考スコア(独自算出の注目度): 22.678875853217164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization has emerged as an effective and lightweight solution to reduce the memory footprint of the KV cache in Large Language Models (LLMs). Nevertheless, minimizing the performance degradation caused by ultra-low-bit KV cache quantization remains a significant challenge. We observe that quantizing the KV cache of different tokens has varying impacts on the quality of attention outputs. To systematically investigate this phenomenon, we perform forward error propagation analysis on attention and propose the Anchor Score (AnS) that quantifies the sensitivity of each token's KV cache to quantization-induced error. Our analysis reveals significant disparities in AnS across tokens, suggesting that preserving a small subset with full precision (FP16) of high-AnS tokens can greatly mitigate accuracy loss in aggressive quantization scenarios. Based on this insight, we introduce AnTKV, a novel framework that leverages Anchor Token-aware Vector Quantization to compress the KV cache. Furthermore, to support efficient deployment, we design and develop a triton kernel that is fully compatible with FlashAttention, enabling fast online Anchor Token selection. AnTKV enables LLaMA-3-8B to handle context lengths up to 840K tokens on a single 80GB A100 GPU, while achieving up to 3.5x higher decoding throughput compared to the FP16 baseline. Our experiment results demonstrate that AnTKV matches or outperforms prior works such as KIVI, SKVQ, KVQuant, and CQ under 4-bit settings. More importantly, AnTKV achieves significantly lower perplexity under ultra-low-bit quantization on Mistral-7B, with only 6.32 at 1-bit and 8.87 at 0.375-bit, compared to the FP16 baseline of 4.73.
- Abstract(参考訳): 量子化は、LLM(Large Language Models)におけるKVキャッシュのメモリフットプリントを削減するために、効果的で軽量なソリューションとして登場した。
それでも、超低ビットKVキャッシュ量子化による性能劣化を最小限に抑えることは大きな課題である。
異なるトークンのKVキャッシュの定量化は、注意出力の品質に様々な影響を与えることを観察する。
この現象を系統的に研究するため,各トークンのKVキャッシュの感度を量子化誘起誤差に定量化するアンカースコア(AnS)を提案する。
分析の結果、トークン間のAnSの相違が明らかとなり、高いAnSトークンの完全精度(FP16)を持つ小さなサブセットを保存することで、攻撃的量子化シナリオにおける精度損失を大幅に軽減できることが示された。
この知見に基づいて,KVキャッシュを圧縮するために,Anchor Token-aware Vector Quantizationを活用する新しいフレームワークであるAnTKVを紹介する。
さらに、効率的なデプロイをサポートするために、FlashAttentionと完全に互換性のあるトリトンカーネルを設計、開発し、高速なオンラインアンカートークン選択を可能にする。
AnTKVにより、LLaMA-3-8Bは、80GBのA100 GPU上で最大840Kのトークンを処理でき、FP16ベースラインに比べて最大3.5倍高い復号スループットを実現することができる。
実験結果から, KIVI, SKVQ, KVQuant, CQなどの先行処理を4ビット設定で一致させるか, 性能が向上することが示された。
さらに重要なこととして、AnTKVはMistral-7B上での超低ビット量子化において、FP16ベースラインの4.73に比べて1ビットで6.32、0.375ビットで8.87と非常に低いパープレキシティを実現する。
関連論文リスト
- NQKV: A KV Cache Quantization Scheme Based on Normal Distribution Characteristics [6.048883141729117]
大規模言語モデル(LLM)は、幅広いタスクにまたがる卓越した習熟度を示してきた。
LLMは、スループットを高めるためにより大きなバッチサイズを必要とすることや、タスク要求を満たすために長いコンテキスト長を必要とすることも多い。
論文 参考訳(メタデータ) (2025-05-22T04:23:19Z) - SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。