論文の概要: EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs
- arxiv url: http://arxiv.org/abs/2509.16686v1
- Date: Sat, 20 Sep 2025 13:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.927368
- Title: EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs
- Title(参考訳): EG-MLA:スケーラブルかつ効率的なLLMのための埋め込み型マルチヘッド遅延注意
- Authors: Zhengge Cai, Haowen Hou,
- Abstract要約: キー値(KV)キャッシュサイズは、大規模言語モデル(LLM)における効率的な推論を実現するための重要なステップである。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することでこれを緩和している。
MLAの新たな拡張である textbfEmbedding-Gated Multi-head Latent Attention (EG-MLA) を提案する。
- 参考スコア(独自算出の注目度): 8.093922145280326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reducing the key-value (KV) cache size is a crucial step toward enabling efficient inference in large language models (LLMs), especially under latency and memory constraints. While Multi-Head Attention (MHA) offers strong representational power, it incurs significant memory overhead. Recent work on Multi-head Latent Attention (MLA) mitigates this by compressing KV representations into a shared latent space, achieving a better trade-off between performance and cache efficiency. While MLA already achieves significant KV cache reduction, the scope for further compression remains limited without performance loss. In this paper, we propose \textbf{Embedding-Gated Multi-head Latent Attention (EG-MLA)}, a novel extension of MLA that further reduces KV cache size while enhancing representational expressiveness. EG-MLA introduces a token-specific embedding gating mechanism applied in the latent space, enabling fine-grained modulation of compressed KV vectors with minimal additional computation. Compared to MHA, EG-MLA achieves over 91.6\% reduction in KV cache size with negligible performance degradation. Relative to MLA, EG-MLA consistently improves task accuracy across diverse reasoning benchmarks while achieving up to 59.9\% additional memory savings. Our theoretical analysis highlights how embedding gating induces implicit high-order interactions, and empirical evaluations demonstrate robust generalization across model scales and compression regimes. Notably, we successfully scale EG-MLA to over 1 billion parameters, demonstrating its practical viability for large-scale LLM deployment. These results establish EG-MLA as a memory- and compute-efficient attention mechanism that enables scalable, high-performance inference in modern LLMs.
- Abstract(参考訳): キー値(KV)キャッシュサイズを減らすことは、特にレイテンシとメモリ制約の下で、大きな言語モデル(LLM)の効率的な推論を可能にするための重要なステップである。
MHA(Multi-Head Attention)は強力な表現力を提供するが、大きなメモリオーバーヘッドを引き起こす。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することで、パフォーマンスとキャッシュ効率のトレードオフを改善することでこれを緩和している。
MLAはKVキャッシュの大幅な削減をすでに達成しているが、さらなる圧縮のスコープは性能の低下なしに制限されている。
本稿では,表現表現性を高めつつ,KVキャッシュサイズをさらに小さくするMLAの新たな拡張である,EG-MLA(textbf{Embedding-Gated Multi-head Latent Attention)を提案する。
EG-MLAは、潜在空間に適用されるトークン固有の埋め込みゲーティング機構を導入し、最小限の追加計算で圧縮されたKVベクトルのきめ細かい変調を可能にする。
MHAと比較して、EG-MLAは91.6\%以上のKVキャッシュサイズ削減を実現し、性能劣化は無視できる。
MLAとは対照的に、EG-MLAは様々な推論ベンチマークのタスク精度を継続的に改善し、最大59.9%のメモリ節約を実現している。
我々の理論的分析は、埋め込みゲーティングが高次相互作用を暗黙的に引き起こし、経験的評価によってモデルスケールと圧縮レジームをまたいだ堅牢な一般化が示されることを示している。
特に,EG-MLAを10億以上のパラメータに拡張することに成功し,大規模LLMデプロイメントの実現可能性を示した。
これらの結果は,現代のLLMにおいて,スケーラブルで高性能な推論を可能にするメモリおよび計算効率の高いアテンション機構としてEG-MLAを確立する。
関連論文リスト
- Whisper-MLA: Reducing GPU Memory Consumption of ASR Models based on MHA2MLA Conversion [47.317377282106015]
本稿では,WhisperモデルにMLA(Multi-Head Latent Attention)を組み込んだ新しいアーキテクチャであるWhisper-MLAを紹介する。
我々は,Whisper-MLAにより,競合精度を維持しつつ,KVキャッシュサイズを最大87.5%削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T09:24:01Z) - Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction [50.99402504483692]
凍結重み付き言語モデルのための新しいゲーティングベースのKVキャッシュ消去手法を提案する。
私たちのアプローチは、プリフィルとデコードの両方の段階にシームレスに統合されます。
実験の結果,KVキャッシュの最大70%を除去しながら,ほぼ無作為な性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-25T03:07:54Z) - MHA2MLA-VLM: Enabling DeepSeek's Economical Multi-Head Latent Attention across Vision-Language Models [37.41464628858585]
MHA2MLA-VLMは、市販の視覚言語モデルをMLA(Multi-Head Latent Attention)に変換するためのフレームワークである。
MHA2MLA-VLMは、最小教師付きデータで元のモデル性能を復元し、KVキャッシュのフットプリントを大幅に削減し、KV量子化とシームレスに統合することを示す。
論文 参考訳(メタデータ) (2026-01-16T17:45:34Z) - SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。
本研究では,SmallKVのスループットがベースライン法よりも1.75~2.56倍高いことを示す。
論文 参考訳(メタデータ) (2025-08-03T09:15:36Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM [7.651654889371008]
トランスフォーマーベースのモデルは現代の機械学習の基礎であるが、その実行はメモリシステムに大きな圧力をかける。
プロセッシング・イン・メモリ(PIM)アーキテクチャは、メモリ近傍で高い内部帯域幅と計算並列性を提供する、有望なソリューションである。
現在のPIM設計は、主に、KVキャッシュスパーシリティ技術によって導入された動的で不規則なアクセスパターンに対処するために最適化されている。
論文 参考訳(メタデータ) (2025-05-09T04:17:05Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - TransMLA: Multi-Head Latent Attention Is All You Need [34.38934956358534]
TransMLAはGQAベースのモデルをMLAベースのモデルにシームレスに変換するフレームワークである。
LLaMA-2-7BでKVキャッシュの93%を圧縮することにより、TransMLAは8Kコンテキスト長で10.6倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-11T18:20:18Z) - Multi-matrix Factorization Attention [59.10039136733939]
MFA(Multi-Matrix Factorization Attention)とMFA-Key-Reuse(MFA-KR)を提案する。
MFAは、アテンションヘッドの数と次元の両方を効率的にスケールアップすることで、モデルキャパシティを向上させる。
MFA-KRはキーキャッシュを値として再利用することでメモリ要求をさらに削減する。
論文 参考訳(メタデータ) (2024-12-26T15:45:45Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。