論文の概要: HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization
- arxiv url: http://arxiv.org/abs/2605.03562v1
- Date: Tue, 05 May 2026 09:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.87496
- Title: HeadQ: Model-Visible Distortion and Score-Space Correction for KV-Cache Quantization
- Title(参考訳): HeadQ: KVキャッシュ量子化のためのモデル可視歪みとスコア空間補正
- Authors: Jorge L. Ruiz Williams,
- Abstract要約: KV-cache量子化器は通常、注意重み付けされた読み出しによってロジットや値を通じてキーを読み取るが、ストレージ空間の再構築を最適化する。
永続的なキャッシュエラーは、モデル可視座標で測定されるべきである。
キーの場合、可視オブジェクトはスコアエラーのモジュロ定数シフトであり、これはキーサイドメソッドであるHeadQで、低ランク残余のサイドコードをキャリブレーション付きクエリベースで格納する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV-cache quantizers usually optimize storage-space reconstruction, even though attention reads keys through logits and values through attention-weighted readout. We argue that persistent cache error should be measured in model-visible coordinates. For keys, the visible object is score error modulo constant shifts; this yields HeadQ, a key-side method that stores a low-rank residual side code in a calibration-learned query basis and applies it as an additive logit correction. For values, fixed-attention readout gives an $A^2$-weighted token-distortion surrogate. Across six models, Fisher/score-space error predicts attention KL far better than raw key MSE; same-budget counterexamples, null-space interventions, query-PCA controls, and wrong-sign HeadQ falsify storage-MSE alternatives. Matched Pythia checkpoints localize the main anomaly to a small-model low-entropy route-flip boundary. In K-only WikiText-103 decode experiments with dense values, HeadQ removes roughly $84$--$94\%$ of the excess perplexity on the strongest 2-bit rows; in an auxiliary full-KV 2-bit composition, HeadQ plus an $A^2$ value policy improves all six models.
- Abstract(参考訳): KV-cache量子化器は通常、注意重み付けされた読み出しによってロジットや値を通じてキーを読み取るが、ストレージ空間の再構築を最適化する。
永続的なキャッシュエラーは、モデル可視座標で測定されるべきである。
キーに対して、可視オブジェクトはスコアエラーのモジュロ定数シフトであり、これは、低ランク残余のサイドコードをキャリブレーション付きクエリベースに格納し、追加のロジット補正として適用するキーサイドメソッドであるHeadQを出力する。
固定アテンション読み込みは、値に対して$A^2$-weighted token-distortion surrogateを与える。
6つのモデルで、Fisher/score-spaceエラーはKLが生のキーMSEよりもはるかに優れた注意を予測し、同じ予算の反例、nullスペースの介入、クエリ-PCA制御、誤サインのHeadQがストレージ-MSEの代替品を偽装する。
マッチングされたPythiaチェックポイントは、メインの異常を小さなモデル低エントロピー経路-フリップ境界にローカライズする。
KのみのWikiText-103デコード実験では、HeadQは最強の2ビット行における過剰なパープレキシティの約84$--94\%$を除去し、HadQとA^2$の値ポリシーは6つのモデルすべてを改善する。
関連論文リスト
- Linear Predictability of Attention Heads in Large Language Models [0.5833117322405447]
事前学習したトランスフォーマーは,頭部間線形構造が広範に存在することを示す。
我々は、参照ヘッドKV状態のみをキャッシュし、残りのヘッドをオンザフライで再構築することでこれを活用します。
論文 参考訳(メタデータ) (2026-03-04T09:04:03Z) - Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection [15.230462656535034]
標準変換器の注意は、クエリ、キー、および値(d_q = d_k = d_v = dmodel$)に同じ次元を使用する。
我々の洞察では、これらの成分は基本的に異なる役割を担っており、この対称性は不要である。
我々は、選択は本質的に値移動よりも低次元の操作であり、$Nの関連パターンを区別するためには$BigO(log N)次元しか必要としないと主張している。
論文 参考訳(メタデータ) (2026-02-16T23:45:39Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Causal Attention with Lookahead Keys [52.63961482746826]
標準的な因果的注意では、各トークンのクエリ、キー、値(QKV)は静的であり、先行するコンテキストのみをエンコードする。
本研究では,Lookahead kEys (CASTLE) を用いたCAuSal aTtentionを導入する。
論文 参考訳(メタデータ) (2025-09-09T00:15:23Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - Continuous-Variable Quantum Key Distribution with key rates far above the PLOB bound [0.7918886297003017]
ガウス集団攻撃における秘密鍵レートの分析を行った。
一方向誤り訂正の場合の上限であるDevetak-Winter値$I(X;Y) - I(E;Y)$よりもはるかに高い秘密鍵レートを得る。
論文 参考訳(メタデータ) (2024-02-07T11:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。