論文の概要: Low-Rank Key Value Attention
- arxiv url: http://arxiv.org/abs/2601.11471v1
- Date: Fri, 16 Jan 2026 17:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.586924
- Title: Low-Rank Key Value Attention
- Title(参考訳): 低ランクキーバリューアテンション
- Authors: James O'Neill, Robert Clancy, Mariia Matskevichus, Fergal Reid,
- Abstract要約: トランスフォーマーの事前訓練は、メモリと計算要求によってますます制限される。
マルチヘッドアテンションの簡易な修正として,テキストトローランクKV適応(LRKV)を提案する。
LRKVは標準的なマルチヘッドアテンションの代替品である。
- 参考スコア(独自算出の注目度): 3.7728602841318426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer pretraining is increasingly constrained by memory and compute requirements, with the key-value (KV) cache emerging as a dominant bottleneck during training and autoregressive decoding. We propose \textit{low-rank KV adaptation} (LRKV), a simple modification of multi-head attention that reduces KV cache memory by exploiting redundancy across attention heads while preserving full token-level resolution. Each layer uses a shared full-rank KV projection augmented with low-rank, head-specific residuals, yielding a continuous trade-off between complete sharing and fully independent attention. LRKV is a drop-in replacement for standard multi-head attention and directly subsumes query-sharing approaches such as multi-query and grouped-query attention, while remaining distinct from latent-compression methods such as multi-latent attention (MLA). Across large-scale pretraining experiments, LRKV consistently achieves faster loss reduction, lower validation perplexity, and stronger downstream task performance than standard attention, MQA/GQA, and MLA. At the 2.5B scale, LRKV outperforms standard attention while using roughly half the KV cache, and reaches equivalent model quality with up to \textbf{20-25\% less training compute} when measured in cumulative FLOPs. To explain these gains, we analyze attention head structure in operator space and show that LRKV preserves nearly all functional head diversity relative to standard attention, whereas more aggressive KV-sharing mechanisms rely on compensatory query specialization. Together, these results establish LRKV as a practical and effective attention mechanism for scaling Transformer pretraining under memory- and compute-constrained regimes.
- Abstract(参考訳): トランスフォーマーの事前トレーニングは、メモリと計算要求によってますます制限され、キー値(KV)キャッシュは、トレーニングと自動回帰デコーディングにおいて主要なボトルネックとして現れる。
我々は,トークンレベルの解像度を保ちながら,注目ヘッド間の冗長性を生かしてKVキャッシュメモリを低減する,マルチヘッドアテンションの簡易な修正である‘textit{low-rank KV adaptation} (LRKV) を提案する。
各レイヤは、低ランクで頭固有の残差を付加した共有フルランクのKVプロジェクションを使用し、完全な共有と完全に独立した注意の連続的なトレードオフをもたらす。
LRKVは標準的なマルチヘッドアテンションの代替であり、マルチクエリやグループクエリアテンションのようなクエリ共有アプローチを直接仮定するが、マルチラテントアテンション(MLA)のような遅延圧縮手法とは相容れない。
大規模な事前トレーニング実験を通じて、LRKVは一貫して、損失削減の高速化、検証の難しさの低減、ダウンストリームタスクのパフォーマンスの強化を標準の注意力、MQA/GQA、MLAよりも実現している。
2.5Bスケールでは、LRKVは、約半分のKVキャッシュを使用して標準の注意力より優れ、累積FLOPで測定された場合、最大で textbf{20-25\% のトレーニング計算で同等のモデル品質に達する。
これらの利得を説明するために,演算子空間におけるアテンションヘッド構造を解析し,LRKVが標準的なアテンションに対してほぼすべての機能的ヘッドの多様性を保ちながら,より積極的なKV共有機構は補償クエリの特殊化に依存していることを示す。
これらの結果により、LRKVは、メモリおよび計算制約下でのトランスフォーマー事前学習の実践的かつ効果的な注意機構として確立される。
関連論文リスト
- KV-Efficient VLA: A Method of Speed up Vision Language Model with RNN-Gated Chunked KV Cache [0.9238700679836854]
VLA(Vision-Language-Action)モデルは、ロボットの認識と制御の統一を約束するが、そのスケーラビリティは、長軸推論における注意の二次的コストとキー値(KV)メモリの非有界成長によって制約される。
KV-Efficient VLAは、高ユーティリティコンテキストを選択的に保持する軽量なトレーニングフレンドリーなメカニズムを導入することで、これらの制限に対処するモデルに依存しないメモリ圧縮フレームワークである。
提案手法は,既存の自己回帰およびハイブリッドVLAスタックにシームレスに統合し,トレーニングパイプラインや下流制御ロジックを変更することなく,スケーラブルな推論を可能にする。
論文 参考訳(メタデータ) (2025-09-20T02:04:24Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - KVSink: Understanding and Enhancing the Preservation of Attention Sinks in KV Cache Quantization for LLMs [0.0]
キーバリュー(KV)キャッシュ量子化は,大規模言語モデル(LLM)推論において広く採用されている最適化手法である。
近年の研究は、注意シンクの保護を確保するために、最初の数個のトークンに対してKVの本来の精度を維持することの重要性を強調している。
我々は,シンクトークンを無視できるオーバーヘッドで効果的に予測するプラグイン・アンド・プレイ方式であるtextittextbf KVSinkを紹介した。
論文 参考訳(メタデータ) (2025-08-06T09:40:09Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。