論文の概要: Linear Predictability of Attention Heads in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.13314v1
- Date: Wed, 04 Mar 2026 09:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.295568
- Title: Linear Predictability of Attention Heads in Large Language Models
- Title(参考訳): 大規模言語モデルにおける注意ヘッドの線形予測可能性
- Authors: Khalid Shaikh, Asmit Kumar Singh, Rebecca Christopher Dsouza, Shikhar Shiromani,
- Abstract要約: 事前学習したトランスフォーマーは,頭部間線形構造が広範に存在することを示す。
我々は、参照ヘッドKV状態のみをキャッシュし、残りのヘッドをオンザフライで再構築することでこれを活用します。
- 参考スコア(独自算出の注目度): 0.5833117322405447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) inference is increasingly bottlenecked by the Key-Value (KV) cache, yet the fine-grained structure of attention-head activations remains poorly understood. We show that pretrained Transformers exhibit a pervasive inter-head linear structure: for a given token, the Query, Key, and Value (QKV) vectors of an attention head can often be reconstructed as a linear combination of a small number of peer heads, typically within the same layer. Across Llama-3.1-8B, Falcon3-10B, OLMo-2-7B, and Qwen3-32B, just 2-5 reference heads recover many target heads with high fidelity (e.g., mean R^2 approx 0.76 for Keys on C4 with five references, and frequently R^2 > 0.85 on GSM8K). This predictability is learned rather than architectural: it is largely absent at random initialization, rises rapidly during pretraining as we track through OLMo-2 checkpoints, and is supported by a theoretical lower bound showing high mean-squared error for linear prediction at initialization. We further connect this emergence to increasing intra-layer alignment of Key projection subspaces. Finally, we exploit this redundancy for efficiency by caching only reference-head KV states and reconstructing the remaining heads on the fly via lightweight linear maps, achieving 2x KV-cache reduction with model-dependent accuracy trade-offs (4.5-5.5 percentage point average drop on Falcon3-10B and Qwen3-32B across five benchmarks, and larger drops on Llama-3.1-8B), and we find that reconstructing Keys is substantially less harmful than reconstructing Values.
- Abstract(参考訳): 大規模言語モデル (LLM) 推論はキーバリュー (KV) キャッシュによってますますボトルネックになってきているが、注目ヘッドアクティベーションの微細構造はいまだに理解されていない。
予め学習したトランスフォーマーは,任意のトークンに対して,注目ヘッドのクエリ,キー,値(QKV)ベクトルを,少数のピアヘッドの線形結合として再構成することができる。
Llama-3.1-8B、Falcon3-10B、OLMo-2-7B、Qwen3-32Bにまたがって、2-5個の基準ヘッドは高い忠実度を持つ多くの目標ヘッドを回収する(例えば、5つの基準を持つC4上のキーはR^2アロックス0.76、しばしばR^2 > 0.85)。
ランダム初期化ではほとんど欠落しており、OLMo-2チェックポイントを辿りながら事前学習中に急速に上昇し、初期化時の線形予測に高い平均二乗誤差を示す理論的な下界によって支持される。
さらに、この出現をキー射影部分空間の層内アライメントの増加に結び付ける。
最後に、この冗長性を利用して、基準ヘッドKV状態のみをキャッシュし、軽量リニアマップを介して残りのヘッドを再構築し、モデル依存の精度で2倍のKVキャッシュ削減を実現した(Falcon3-10BとQwen3-32Bでは5つのベンチマークで平均値が4.5-5.5、Llama-3.1-8Bでは大きな値が低下)。
関連論文リスト
- Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference [54.467557491325046]
本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
論文 参考訳(メタデータ) (2026-02-09T07:05:23Z) - Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。
MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。
これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文 参考訳(メタデータ) (2026-01-27T13:45:03Z) - KVLinC : KV Cache Quantization with Hadamard Rotation and Linear Correction [8.486713415198968]
我々は,KVキャッシュ量子化による注意欠陥を軽減するフレームワークKVLinCを提案する。
KVLinCは、値の量子化誤差を低減するアダマール回転と、軽量な線形補正アダプタを組み合わせたものである。
KVLinC は高い KV-cache 圧縮を達成しつつ, 高いベースラインを一貫して一致または超えることを示す。
論文 参考訳(メタデータ) (2025-10-06T21:08:11Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。