論文の概要: A Random Matrix Theory Perspective on the Learning Dynamics of Multi-head Latent Attention
- arxiv url: http://arxiv.org/abs/2507.09394v1
- Date: Sat, 12 Jul 2025 20:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.071682
- Title: A Random Matrix Theory Perspective on the Learning Dynamics of Multi-head Latent Attention
- Title(参考訳): マルチヘッド潜在注意の学習ダイナミクスに関するランダム行列理論の視点
- Authors: Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: 本研究では,マルチヘッド潜時注意がプレトレーニング中の変圧器の内部能力に与える影響について検討する。
Marchenko-Pastur(MP)診断の軽量なスイートを用いて、トレーニング中に$W_QW_Ktop$ gram行列のスペクトルを分析する。
- 参考スコア(独自算出の注目度): 3.7802450241986945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study how multi-head latent attention (MLA), a popular strategy for compressing key/value memory, affects a transformer's internal capacity during pretraining. Using a lightweight suite of Marchenko-Pastur (MP) diagnostics, we analyze the spectrum of the $W_{Q}W_{K}^\top$ gram matrix throughout training, comparing three variants: the standard multi-head attention (MHA) baseline, MLA-PreRoPE with rotary applied before compression, and MLA-Decoupled, which shares a single rotary sub-vector across all heads. Our random matrix analysis reveals \textbf{three key findings:} \textbf{ i)} capacity bottlenecks emerge locally: both MHA and MLA-PreRoPE exhibit sharp, early spikes in specific layers that persist and propagate, disrupting the balance between bulk and outlier directions; \textbf{ ii)} these spikes coincide with rank collapse, concentrating the model's expressivity into narrow subspaces; \textbf{ iii)} only the decoupled variant prevents this cascade, maintaining broad spectral support and suppressing outlier formation across layers. These results underscore that \emph{how} rotary embeddings are applied is just as critical as \emph{where} compression occurs. Sharing rotary components across heads mitigates spectral fragmentation and preserves representational capacity.
- Abstract(参考訳): 本研究では,鍵/値メモリを圧縮する一般的な戦略であるマルチヘッド潜時注意(MLA)が,事前学習時の変圧器の内部容量に与える影響について検討する。
マルチヘッドアテンション(MHA)ベースライン,MLA-PreRoPEと圧縮前に印加されたロータリ,MLA-Decoupledの3つの変種を比較し,W_{Q}W_{K}^\top$ gram行列のスペクトル分析を行った。
我々の無作為な行列解析は \textbf{ three key findings:} \textbf{
MHA と MLA-PreRoPE はどちらも、バルク方向と外向き方向のバランスを乱し、持続し、伝播する特定の層において、シャープで早期のスパイクを示します。
これらのスパイクは階数崩壊と一致し、モデルの表現性を狭い部分空間に集中させる。
iii) 分離された変種のみがこのカスケードを防ぎ、広いスペクトル支持を維持し、層間における外層形成を抑制する。
これらの結果は、 \emph{how} 回転埋め込みが適用されることは、 \emph{where} 圧縮が生じるのと同じくらい臨界であることを示す。
頭部の回転成分の共有は、スペクトルの断片化を軽減し、表現能力を維持する。
関連論文リスト
- Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - TensorLLM: Tensorising Multi-Head Attention for Enhanced Reasoning and Compression in LLMs [3.808154352665581]
マルチヘッドテンソル化プロセスとタッカー分解によるMHA圧縮を実現する新しいフレームワークを提案する。
提案手法は,複数のベンチマークデータセットにまたがるLCMの推論能力を一貫して向上させることを実証する。
提案手法は既存のFFNのみに基づく復調手法とシームレスに組み合わせることで,LLM推論性能のさらなる向上を実現することができることを示す。
論文 参考訳(メタデータ) (2025-01-26T21:05:16Z) - MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。
本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。
提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文 参考訳(メタデータ) (2024-10-16T08:34:51Z) - Mind the Gap: a Spectral Analysis of Rank Collapse and Signal Propagation in Attention Layers [3.686808512438363]
ソフトマックスに基づく注意の代替は、効果的な情報の流れを妨げる傾向があるためである。
我々は、注目行列の2つの最大の特異勾配の間のスペクトルギャップを明らかにするために厳密な解析を行う。
外れ値を取り除き、広さのランク崩壊を解消する新しい簡単な実用的解法を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:34:18Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models [9.244526043014098]
大規模言語モデル(LLM)は困難なタスクにおいて優れた性能を示すが、大きな記憶と計算資源を必要とすることが多い。
本研究では,トランスフォーマーのマルチヘッド自己注意層(MHA)が顕著な低ランク構造を示すことを示す。
低ランク行列と構造化プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを提案する。
論文 参考訳(メタデータ) (2024-04-15T11:53:22Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。