論文の概要: Accurate KV Cache Quantization with Outlier Tokens Tracing
- arxiv url: http://arxiv.org/abs/2505.10938v1
- Date: Fri, 16 May 2025 07:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.268175
- Title: Accurate KV Cache Quantization with Outlier Tokens Tracing
- Title(参考訳): Outlier Tokens Tracingを用いたKVキャッシュの高精度化
- Authors: Yi Su, Yuechi Zhou, Quantong Qiu, Juntao Li, Qingrong Xia, Ping Li, Xinyu Duan, Zhefeng Wang, Min Zhang,
- Abstract要約: KVキャッシュの量子化は有望なソリューションであり、メモリ使用量と精度のバランスが良い。
これまでの研究によると、キーはチャネルで分散され、バリューはトークンで分散されている。
提案手法は,2ビット量子化による大幅な精度向上を実現し,メモリ使用率を6.4倍,スループットを2.3倍に向上させることができる。
- 参考スコア(独自算出の注目度): 44.722738059962296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive capabilities of Large Language Models (LLMs) come at the cost of substantial computational resources during deployment. While KV Cache can significantly reduce recomputation during inference, it also introduces additional memory overhead. KV Cache quantization presents a promising solution, striking a good balance between memory usage and accuracy. Previous research has shown that the Keys are distributed by channel, while the Values are distributed by token. Consequently, the common practice is to apply channel-wise quantization to the Keys and token-wise quantization to the Values. However, our further investigation reveals that a small subset of unusual tokens exhibit unique characteristics that deviate from this pattern, which can substantially impact quantization accuracy. To address this, we develop a simple yet effective method to identify these tokens accurately during the decoding process and exclude them from quantization as outlier tokens, significantly improving overall accuracy. Extensive experiments show that our method achieves significant accuracy improvements under 2-bit quantization and can deliver a 6.4 times reduction in memory usage and a 2.3 times increase in throughput.
- Abstract(参考訳): LLM(Large Language Models)の印象的な機能は、デプロイメント中にかなりの計算リソースを犠牲にしている。
KVキャッシュは推論中の再計算を大幅に削減するが、追加のメモリオーバーヘッドも導入する。
KVキャッシュの量子化は有望なソリューションであり、メモリ使用量と精度のバランスが良い。
これまでの研究によると、キーはチャネルで分散され、バリューはトークンで分散されている。
したがって、一般的にはキーにチャネルワイド量子化を適用し、バリューにトークンワイド量子化を適用する。
しかし,本研究では,このパターンから逸脱する特異な特徴を示す特異なトークンのサブセットが,量子化精度に著しく影響を及ぼす可能性があることを明らかにした。
これを解決するために,復号処理中にこれらのトークンを正確に識別し,量子化を外れ値として排除し,全体的な精度を著しく向上する簡易かつ効果的な手法を開発した。
実験の結果,2ビット量子化による精度向上を実現し,メモリ使用率を6.4倍,スループットを2.3倍に向上できることがわかった。
関連論文リスト
- SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - SVDq: 1.25-bit and 410x Key Cache Compression for LLM Attention [0.0]
KVキャッシュ圧縮技術の主な3つのタイプ、すなわちスパシティ、チャネル圧縮、量子化が同定された。
本研究は,Kキャッシュの混合精度定量化法であるSVDqを提案する。
論文 参考訳(メタデータ) (2025-02-21T08:55:21Z) - More for Keys, Less for Values: Adaptive KV Cache Quantization [59.708443710731146]
本稿では,大規模言語モデルにおけるキー値キャッシュを適応的に圧縮する情報認識量子化フレームワークを提案する。
鍵行列が常に高いノルム値を示し、値行列よりも量子化に敏感であることを示す。
我々は、鍵のビット幅を多く割り当て、値のビット幅を小さくする混合精度量子化戦略KV-AdaQuantを提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。