論文の概要: Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection
- arxiv url: http://arxiv.org/abs/2603.04427v1
- Date: Mon, 16 Feb 2026 23:45:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.205654
- Title: Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection
- Title(参考訳): 薄型キーとフル値: 低次元アテンション選択によるKVキャッシュの削減
- Authors: Hengshuai Yao, Guan Wang,
- Abstract要約: 標準変換器の注意は、クエリ、キー、および値(d_q = d_k = d_v = dmodel$)に同じ次元を使用する。
我々の洞察では、これらの成分は基本的に異なる役割を担っており、この対称性は不要である。
我々は、選択は本質的に値移動よりも低次元の操作であり、$Nの関連パターンを区別するためには$BigO(log N)次元しか必要としないと主張している。
- 参考スコア(独自算出の注目度): 15.230462656535034
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standard transformer attention uses identical dimensionality for queries, keys, and values ($d_q = d_k = d_v = \dmodel$). Our insight is that these components serve fundamentally different roles, and this symmetry is unnecessary. Queries and keys produce scalar attention weights (\emph{selection}), while values carry rich semantic representations (\emph{value transfer}). We argue that selection is an inherently lower-dimensional operation than value transfer, requiring only $\BigO(\log N)$ dimensions to distinguish among $N$ relevant patterns. We validate this hypothesis across seven experiments: (1)~positional selection tasks requiring just 1~dimension per head, (2)~content-based retrieval requiring $\sim\!\log_2 N$ dimensions, (3--4)~WikiText-2 and WikiText-103 language modeling where $\dselect = \dmodel/4$ incurs only 4.3\% perplexity increase while reducing QK parameters by 75\%, (5)~post-training SVD compression of GPT-2, revealing keys to be far more compressible than queries, with lightweight QK fine-tuning recovering nearly all quality loss, (6)~a 125M-parameter LLaMA model confirming identical degradation ratios across architectures, and (7)~Mistral-7B (7.2B parameters), where SVD compression followed by QK fine-tuning achieves 75\% key cache savings at just 2.0\% residual quality cost. For existing models, SVD compression followed by QK fine-tuning (3 epochs on a small fraction of pretraining data) achieves 75\% key cache savings at $<$2\% residual quality cost. For a 7B-parameter model serving 128K context, asymmetric attention saves 25\,GB of KV cache per user, enabling approximately 60\% more concurrent users on the same GPU.
- Abstract(参考訳): 標準変換器の注意は、クエリ、キー、および値(d_q = d_k = d_v = \dmodel$)に同じ次元を使用する。
我々の洞察では、これらの成分は基本的に異なる役割を担っており、この対称性は不要である。
クエリとキーはスカラーアテンションウェイト(\emph{selection})を生成し、値にはリッチなセマンティック表現(\emph{value transfer})を持つ。
我々は、選択は本質的に値移動よりも低次元の操作であり、関連するパターンを区別するためには$\BigO(\log N)$次元しか必要としない。
この仮説は,(1) 頭部1~1次元のみを必要とする位置選択タスク,(2) コンテントベース検索に$\sim\!
\log_2 N$ dimensions, (3--4)~WikiText-2 and WikiText-103 language modeling where $\dselect = \dmodel/4$ incurs only 4.3\% perplexity increase while reduce QK parameters by 75\%, (5)~post-training SVD compression of GPT-2, revealing key to be far compressible than query, with lightweight QK fine-tuning recovering almost all quality loss, (6)~a 125M-parameter LLaMA model confirmeding same degradation ratios across architectures, (7)~Mistral-7B (7.2B parameters) where SVD compression by QK fine-tunings は75\%キーキャッシュをわずか2.05%のコストで節約する。
既存のモデルでは、SVD圧縮に続いてQK微調整(少量の事前学習データで3エポック)が行われ、75 %のキーキャッシュ保存を$<2 %残量品質コストで達成している。
128Kのコンテキストを提供する7Bパラメータモデルでは、非対称なアテンションはユーザ当たり25\,GBのKVキャッシュを節約し、同じGPU上で約60\%の同時ユーザを実現する。
関連論文リスト
- LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers [0.0]
現在の量子化法では、ストレージを圧縮するが、注意計算では、使用前にINT4/INT8からFP16へ鍵を復号化する必要があるため帯域幅を削減できない。
本稿では,鍵ベクトルを部分空間に分解することで,製品量子化と非対称距離計算をトランスフォーマーアーキテクチャに適用するLOokaTを提案する。
論文 参考訳(メタデータ) (2026-01-15T07:54:07Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models [28.16603647353951]
AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。
パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
論文 参考訳(メタデータ) (2025-01-31T18:47:42Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。