論文の概要: RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
- arxiv url: http://arxiv.org/abs/2605.06675v1
- Date: Wed, 22 Apr 2026 02:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.668143
- Title: RateQuant: Optimal Mixed-Precision KV Cache Quantization via Rate-Distortion Theory
- Title(参考訳): RateQuant: 速度歪み理論による最適混合精度KVキャッシュ量子化
- Authors: Fei Zuo, Zikang Zhou, Hao Cong, Xiaoyan Xi, Ho Fai Leung,
- Abstract要約: 自然な考え方は、重要な頭により多くのビットを割り当て、残りを減らすことである。
ある量子化器の歪みモデルを別の量子化器に適用すると、割り当て順序が逆になり、均一な量子化よりも性能が悪くなる。
RateQuantは、小さなキャリブレーションセットから量子化器毎の歪みモデルに適合し、結果として生じるビット割り当て問題を閉じた形で解決する。
- 参考スコア(独自算出の注目度): 3.307797786204237
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models cache all previously computed key-value (KV) pairs during generation, and this KV cache grows linearly with sequence length, making it a primary memory bottleneck for serving. Quantizing the KV cache to fewer bits reduces this cost, yet all current quantizers assign the same bit-width to every attention head, ignoring the large variation in head importance. A natural idea is to allocate more bits to important heads and fewer to the rest. We show, however, that such mixed-precision allocation has a hidden pitfall: each quantizer follows a different distortion curve D(b)=alpha*beta^{-b}, and the decay rate beta varies from 3.6 to 5.3 across quantizer designs. Applying one quantizer's distortion model to another inverts the allocation order and makes performance worse than uniform quantization. We call this failure mode distortion model mismatch and propose RateQuant to resolve it. RateQuant fits a per-quantizer distortion model from a small calibration set, then solves the resulting bit-allocation problem in closed form via reverse waterfilling from rate-distortion theory. On Qwen3-8B at 2.5 average bits, calibrated RateQuant reduces KIVI's perplexity from 49.3 to 14.9 (70% reduction) and improves QuaRot by 6.6 PPL. The entire calibration takes 1.6 s on a single GPU and adds zero overhead at inference time.
- Abstract(参考訳): 大規模言語モデルでは、生成中にすべての計算済みキー値(KV)ペアをキャッシュし、このKVキャッシュはシーケンス長とともに線形に増加し、サービスのための主要なメモリボトルネックとなる。
KVキャッシュを少ないビットに量子化することで、このコストを削減できるが、現在の量子化器はすべての注目ヘッドに同じビット幅を割り当てる。
自然な考え方は、重要な頭により多くのビットを割り当て、残りを減らすことである。
それぞれの量子化器は、異なる歪み曲線 D(b)=alpha*beta^{-b} に従っており、崩壊速度ベータは、量子化器の設計全体で3.6から5.3まで変化する。
ある量子化器の歪みモデルを別の量子化器に適用すると、割り当て順序が逆になり、均一な量子化よりも性能が悪くなる。
我々は、この障害モード歪みモデルミスマッチを呼び出し、それを解決するためにRateQuantを提案します。
RateQuantは、小さなキャリブレーションセットから量子化器毎の歪みモデルに適合し、レート歪み理論からの逆水埋め込みにより、結果として生じるビット配置問題を閉じた形で解決する。
Qwen3-8B平均2.5ビットでは、キャリブレーションされたRateQuantはKIVIの難易度を49.3から14.9(70%削減)に低減し、QuaRotを6.6PPL改善する。
キャリブレーション全体は、1つのGPU上で1.6秒かかり、推論時にオーバーヘッドがゼロになる。
関連論文リスト
- AXELRAM: Quantize Once, Never Dequantize [0.0]
AXELRAMは、量子化されたKVキャッシュインデックスから直接注目スコアを算出する。
我々は,根本原因をレイヤーワイド標準に追従し,ハードウェアコストゼロの破滅的なスパイクを排除した勾配のない符号パターン選択(200の候補,8のキャリブレーションサンプル,1回)を提案する。
論文 参考訳(メタデータ) (2026-04-03T02:03:38Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - AnTKV: Anchor Token-Aware Sub-Bit Vector Quantization for KV Cache in Large Language Models [27.605195979962474]
量子化は、大規模言語モデルにおけるKVキャッシュのメモリフットプリントを削減するために、効果的で軽量なソリューションとして登場した。
我々は、アンカートークン対応ベクトル量子化を利用してKVキャッシュを圧縮するデュアルステージフレームワークAnTKVを提案する。
実験により、AnTKVは従来の手法と4ビットで一致またはオーバーし、超低ビット量子化下でのパープレキシティを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-06-24T10:45:48Z) - TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate [13.14434628836727]
ベクトル量子化は、その幾何学構造における歪みを最小限にしながら、高次元ユークリッドベクトルを定量化することを目的としている。
平均二乗誤差(MSE)と内積歪みに対処するTurboQuantを提案する。
オンラインアプリケーションに適したデータ公開アルゴリズムは、ほぼ最適な歪み率を達成する。
論文 参考訳(メタデータ) (2025-04-28T15:05:35Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。