論文の概要: Quantization Dominates Rank Reduction for KV-Cache Compression
- arxiv url: http://arxiv.org/abs/2604.11501v1
- Date: Mon, 13 Apr 2026 14:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.585156
- Title: Quantization Dominates Rank Reduction for KV-Cache Compression
- Title(参考訳): 量子化によるKVキャッシュ圧縮のランク低減
- Authors: Samuel Salfati,
- Abstract要約: 量子化は、モデルと圧縮レベルに応じて、4-364 PPLのランク低下を一貫して上回る。
我々は、ソフトマックスフィッシャー計量の下で、投射損傷が1方向に3 x 2 (2b) の量子化損傷を超える結果によってこれを定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We compare two strategies for compressing the KV cache in transformer inference: rank reduction (discard dimensions) and quantization (keep all dimensions, reduce precision). At matched storage budgets across five models (124M-14B, MHA and GQA), we find that quantization consistently outperforms rank reduction by 4-364 PPL depending on model and compression level. The gap persists even when rank reduction is combined with quantization in hybrid baselines, and it grows with GQA aggressiveness. On LAMBADA, INT4 matches FP16 accuracy (+0.23 PPL on Mistral 7B, +0.58 on GPT-2) while rank-32 at identical storage collapses to 0.4%. We trace this gap to a structural asymmetry: under softmax attention routing, removing a dimension can flip which token is attended (a discrete failure), while quantization noise is bounded and typically preserves score ordering. We formalize this via a perturbation result showing projection damage exceeds quantization damage by 3 x 2^(2b) per direction under the softmax Fisher metric. A basis ablation confirms the finding is basis-independent (spread <0.4 PPL), establishing that the advantage comes from preserving dimensions, not from a better coordinate system. Joint K+V INT4 quantization achieves 75% total KV reduction at only +0.18 PPL on Mistral 7B.
- Abstract(参考訳): 我々は,KVキャッシュを変圧器推論で圧縮する2つの戦略を比較し,ランクの低減(次元の捨て)と量子化(全次元をキープし,精度を下げる)を比較した。
一致した5モデル(124M-14B, MHA, GQA)のストレージ予算において、量子化はモデルと圧縮レベルに応じて4~364 PPLのランク低下を一貫して上回っていることがわかった。
このギャップは、階級の減少とハイブリッドベースラインの量子化が組み合わされても持続し、GQA攻撃性とともに成長する。
LAMBADAでは、INT4はFP16の精度(Mistral 7Bでは+0.23 PPL、GPT-2では+0.58)と一致し、同じストレージでのランク32は0.4%に低下した。
我々は、このギャップを構造的非対称性に追従する: ソフトマックスのアテンションルーティングの下で、ディメンションを除去すると、どのトークンが関与しているか(離散的な障害)をフリップできるが、量子化ノイズは有界で、通常はスコア順序を保存する。
我々は、ソフトマックスフィッシャー計量の下で、投射損傷が1方向に3 x 2^(2b)の量子化損傷を超えることを示す摂動結果を用いてこれを定式化する。
基底アブレーションは、発見が基底非依存であることを確認する(spread <0.4 PPL)。
合同K+V INT4量子化は、Mistral 7B上ではわずか0.18 PPLで75%のトータルKV還元を達成する。
関連論文リスト
- KVSculpt: KV Cache Compression as Distillation [7.085426079187912]
KVキャッシュ圧縮は、効率的なLLM推論に重要である。
既存のメソッドは、純粋な消去 -- どのKVペアを保持するかを選択する -- から、類似のペアをより少ないものに組み合わせたマージまで、さまざまです。
我々は、このスペクトルの反対側に移動するKVSculptを提案する。
鍵はL-BFGSで最適化され、最小二乗で閉形式で解かれる。
論文 参考訳(メタデータ) (2026-03-29T19:14:25Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression [0.0]
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
論文 参考訳(メタデータ) (2026-01-11T15:35:10Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - A Case for Library-Level k-Means Binning in Histogram Gradient-Boosted Trees [0.0]
量子ビン化を$k$-means離散化器に置き換える新しい手法を考える。
我々はこのスワップを、33のOpenMLデータセット上で量子化と均一なビンニングに対してテストする。
論文 参考訳(メタデータ) (2025-05-18T15:28:06Z) - KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。
MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。
また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文 参考訳(メタデータ) (2025-03-03T12:43:06Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。