Fugu-MT 論文翻訳(概要): HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

論文の概要: HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

arxiv url: http://arxiv.org/abs/2605.03562v1
Date: Tue, 05 May 2026 09:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.87496
Title: HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization
Title（参考訳）: HeadQ: KVキャッシュ量子化のためのモデル可視歪みとスコア空間補正
Authors: Jorge L. Ruiz Williams,
Abstract要約: KV-cache量子化器は通常、注意重み付けされた読み出しによってロジットや値を通じてキーを読み取るが、ストレージ空間の再構築を最適化する。永続的なキャッシュエラーは、モデル可視座標で測定されるべきである。キーの場合、可視オブジェクトはスコアエラーのモジュロ定数シフトであり、これはキーサイドメソッドであるHeadQで、低ランク残余のサイドコードをキャリブレーション付きクエリベースで格納する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: KV-cache quantizers usually optimize storage-space reconstruction, even though attention reads keys through logits and values through attention-weighted readout. We argue that persistent cache error should be measured in model-visible coordinates. For keys, the visible object is score error modulo constant shifts; this yields HeadQ, a key-side method that stores a low-rank residual side code in a calibration-learned query basis and applies it as an additive logit correction. For values, fixed-attention readout gives an $A^2$-weighted token-distortion surrogate. Across six models, Fisher/score-space error predicts attention KL far better than raw key MSE; same-budget counterexamples, null-space interventions, query-PCA controls, and wrong-sign HeadQ falsify storage-MSE alternatives. Matched Pythia checkpoints localize the main anomaly to a small-model low-entropy route-flip boundary. In K-only WikiText-103 decode experiments with dense values, HeadQ removes roughly $84$--$94\%$ of the excess perplexity on the strongest 2-bit rows; in an auxiliary full-KV 2-bit composition, HeadQ plus an $A^2$ value policy improves all six models.
Abstract（参考訳）: KV-cache量子化器は通常、注意重み付けされた読み出しによってロジットや値を通じてキーを読み取るが、ストレージ空間の再構築を最適化する。永続的なキャッシュエラーは、モデル可視座標で測定されるべきである。キーに対して、可視オブジェクトはスコアエラーのモジュロ定数シフトであり、これは、低ランク残余のサイドコードをキャリブレーション付きクエリベースに格納し、追加のロジット補正として適用するキーサイドメソッドであるHeadQを出力する。固定アテンション読み込みは、値に対して$A^2$-weighted token-distortion surrogateを与える。 6つのモデルで、Fisher/score-spaceエラーはKLが生のキーMSEよりもはるかに優れた注意を予測し、同じ予算の反例、nullスペースの介入、クエリ-PCA制御、誤サインのHeadQがストレージ-MSEの代替品を偽装する。マッチングされたPythiaチェックポイントは、メインの異常を小さなモデル低エントロピー経路-フリップ境界にローカライズする。 KのみのWikiText-103デコード実験では、HeadQは最強の2ビット行における過剰なパープレキシティの約84$--94\%$を除去し、HadQとA^2$の値ポリシーは6つのモデルすべてを改善する。

論文の概要: HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization

関連論文リスト