論文の概要: KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2606.03458v1
- Date: Tue, 02 Jun 2026 10:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.940015
- Title: KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks
- Title(参考訳): KVarN: 可変Normalized KV-Cache量子化は推論タスクにおけるエラー蓄積を緩和する
- Authors: Lorenz K. Muller, Philippe Bich, Chiara Boretti, Hyun-Min Chang, Jiawei Zhuang, Lukas Cavigelli,
- Abstract要約: キャリブレーションフリーなKVキャッシュ量子化器であるKVarNを導入する。
この組み合わせはトークンスケールのエラーを解消し、既存のベースラインに対するエラーの蓄積を大幅に削減する。
KVarNは、2ビット精度で、MATH500、AIME24、HumanEvalを含む生成ベンチマーク上で、KV-cache量子化のための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 4.530056625101704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling is a powerful approach to obtain better reasoning in large language models, but it becomes memory-bottlenecked during long-horizon decoding, as the KV-cache grows. KV-cache quantization can help improve this, but current methods are evaluated under prefill-like settings and errors behave differently under autoregressive decoding. We show that in the latter regime, quantization errors accumulate across timesteps, driven primarily by incorrect token scales. We introduce KVarN, a calibration-free KV-cache quantizer that applies a Hadamard rotation followed by a dual-scaling variance normalization across both axes of the K and V matrices. We find that this combination fixes outlying token-scale errors and substantially reduces error accumulation over existing baselines. KVarN establishes a new state-of-theart for KV-cache quantization on generative benchmarks, including MATH500, AIME24 and HumanEval, at 2-bit precision. A vLLM implementation of the KVarN method is available at https://github.com/huawei-csl/KVarN
- Abstract(参考訳): テストタイムスケーリングは、大規模な言語モデルでより良い推論を得るための強力なアプローチであるが、KV-cacheが成長するにつれて、長い水平デコーディング中にメモリを起動するようになる。
KV-cache量子化は、これを改善するのに役立つが、現在のメソッドはプリフィルのような設定で評価され、エラーは自己回帰デコードで異なる振る舞いをする。
後者の体制では、量子化エラーは時間ステップにまたがって蓄積され、主に不正なトークンスケールによって引き起こされる。
キャリブレーションフリーな KV-cache 量子化器である KVarN を導入する。
この組み合わせはトークンスケールのエラーを解消し、既存のベースラインに対するエラーの蓄積を大幅に削減する。
KVarNは、2ビット精度で、MATH500、AIME24、HumanEvalを含む生成ベンチマーク上で、KV-cache量子化のための新しい最先端技術を確立する。
KVarNメソッドのvLLM実装はhttps://github.com/huawei-csl/KVarNで利用可能である。
関連論文リスト
- KVLinC : KV Cache Quantization with Hadamard Rotation and Linear Correction [8.486713415198968]
我々は,KVキャッシュ量子化による注意欠陥を軽減するフレームワークKVLinCを提案する。
KVLinCは、値の量子化誤差を低減するアダマール回転と、軽量な線形補正アダプタを組み合わせたものである。
KVLinC は高い KV-cache 圧縮を達成しつつ, 高いベースラインを一貫して一致または超えることを示す。
論文 参考訳(メタデータ) (2025-10-06T21:08:11Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - SQuat: Subspace-orthogonal KV Cache Quantization [19.131705063324883]
SQuat(Subspace-orthogonal KV cache Quantization)を導入し、ピークメモリを2.17から2.82に削減し、スループットを2.45から3.60に改善し、既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得る。
我々は,ピークメモリを2.17から2.82に削減し,スループットを2.45から3.60に改善し,既存のKVキャッシュ量子化アルゴリズムよりも優れたベンチマークスコアを得ることを示した。
論文 参考訳(メタデータ) (2025-03-31T17:37:32Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。