論文の概要: CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention
- arxiv url: http://arxiv.org/abs/2603.17946v1
- Date: Wed, 18 Mar 2026 17:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.847275
- Title: CARE: Covariance-Aware and Rank-Enhanced Decomposition for Enabling Multi-Head Latent Attention
- Title(参考訳): CARE:マルチヘッド潜伏注意のための共分散認識とランク強化分解
- Authors: Zhongzhu Zhou, Fengxiang Bie, Ziyan Chen, Zhenyu Zhang, Yibo Yang, Junxiong Wang, Ben Athiwaratkun, Xiaoxia Wu, Shuaiwen Leon Song,
- Abstract要約: 固定KV幅の共分散対応・ランク強化型MLA変換パイプラインを提案する。
CAREは、3つの重要なステップを紹介している: (i) 活性化保存因子化 (i) 重量だけでなく実際の入力アクティベーションと近似を一致させる) 調整されたランク割り当て (ii) 固定されたKV予算を層に分散させ、最も必要な層により多くのキャパシティを与える) 変換されたKとVをパラメータ化してMLAフォーマットに適合させるKVパリティマッピング (iii) 。
- 参考スコア(独自算出の注目度): 35.44699837487632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Converting pretrained attention modules such as grouped-query attention (GQA) into multi-head latent attention (MLA) can improve expressivity without increasing KV-cache cost, making it attractive for efficient inference. However, many practical conversion baselines rely on weight-only low-rank approximations (e.g., SVD-style initializations) and uniform rank allocation. They focus on minimizing the difference between weight matrices rather than on how those weights affect input activations, ignore the covariance structure of activations, and enforce uniform rank across layers, causing activation drift and degraded attention fidelity. To address these issues, we propose CARE, a Covariance-Aware, Rank-Enhanced MLA conversion pipeline under a fixed KV width. CARE introduces three key steps: (i) activation-preserving factorization, which aligns the approximation with the actual input activations rather than just the weights; (ii) adjusted-rank allocation, which spreads a fixed KV budget across layers by giving more capacity to layers that need it most; and (iii) KV-parity mapping, which reparameterizes the converted K and V to fit the MLA format while keeping the KV-cache size unchanged. Our method outperforms a uniform-rank SVD baseline on Qwen3-4B/30B-A3B-Instruct-2507 and Llama-3.1-8B/70B-Instruct, reducing one-shot perplexity by up to 215x and improving mean accuracy by up to 1.70x at matched KV budgets. With a brief post-SVD healing fine-tune, we fully recover the original model's accuracy.
- Abstract(参考訳): グループクエリアテンション(GQA)などの事前学習されたアテンションモジュールをマルチヘッド潜在アテンション(MLA)に変換することは、KVキャッシュコストを増大させることなく、表現性を向上させることができるため、効率的な推論には魅力的である。
しかし、多くの実用的な変換ベースラインは、重量のみの低ランク近似(例えば、SVDスタイルの初期化)と均一なランク割り当てに依存している。
彼らは、これらの重量が入力活性化にどのように影響するかよりも、重量行列の違いを最小化することに注力し、活性化の共分散構造を無視し、層間の均一なランクを強制し、アクティベーションドリフトと注意力の低下を引き起こす。
これらの問題に対処するために、我々は、固定KV幅でCovariance-Aware, Rank-Enhanced MLA変換パイプラインであるCAREを提案する。
CAREは3つの重要なステップを紹介します。
(i)活性化保存因子化は、重量だけでなく実際の入力活性化と近似を一致させる。
(ii)調整されたランク割り当ては、最も必要な層により多くのキャパシティを与えることで、固定KV予算を層に広げる。
三 変換KとVをパラメータ化してMLAフォーマットに適合させ、かつ、KVキャッシュサイズを一定に保ったKVパリティマッピング。
提案手法は,Qwen3-4B/30B-A3B-Instruct-2507とLlama-3.1-8B/70B-Instructの均一ランクSVDベースラインを上回り,一発パープレキシティを最大215倍に低減し,一致KV予算で平均精度を最大1.70倍向上させる。
簡単なSVD後治癒の微調整により、元のモデルの精度を完全に回復する。
関連論文リスト
- ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution [84.41751286055909]
我々は、長文世代におけるどのKVペアを退避させるかを予測する訓練ベースのKVキャッシュ消去フレームワークを開発した。
我々は、マルコフ決定過程としてキャッシュ消去を定式化し、GRPOアルゴリズムを適用し、低エントロピートークンにおける言語モデリング損失の増加を緩和する。
論文 参考訳(メタデータ) (2026-02-03T07:16:51Z) - Low-Rank Key Value Attention [3.7728602841318426]
トランスフォーマーの事前訓練は、メモリと計算要求によってますます制限される。
マルチヘッドアテンションの簡易な修正として,テキストトローランクKV適応(LRKV)を提案する。
LRKVは標準的なマルチヘッドアテンションの代替品である。
論文 参考訳(メタデータ) (2026-01-16T17:56:40Z) - AMS-KV: Adaptive KV Caching in Multi-Scale Visual Autoregressive Transformers [6.1675897118034975]
大規模言語モデル(LLM)におけるキー・アンド・バリュー(KV)キャッシングは広く研究されているが、次のスケールの予測には固有の課題がある。
本稿では,VARモデルにおける次のスケール予測のためのスケール適応型KVキャッシュポリシであるAMS-KVを紹介する。
バニラの次世代予測ベースVARモデルと比較すると、AMS-KVはKVキャッシュ使用量を最大84.83%削減し、自己保持遅延を60.48%削減する。
論文 参考訳(メタデータ) (2025-11-20T05:10:12Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - ASVD: Activation-aware Singular Value Decomposition for Compressing Large Language Models [49.970828419830355]
大規模言語モデル(LLM)のための新しい訓練後圧縮パラダイムを提案する。
我々は、アクティベーション対応特異値分解(ASVD)と呼ばれるトレーニング不要の手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T08:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。