論文の概要: TyphoonMLA: A Mixed Naive-Absorb MLA Kernel For Shared Prefix
- arxiv url: http://arxiv.org/abs/2509.21081v1
- Date: Thu, 25 Sep 2025 12:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.901028
- Title: TyphoonMLA: A Mixed Naive-Absorb MLA Kernel For Shared Prefix
- Title(参考訳): TyphoonMLA: 共有プレフィックスのための混合Naive-Absorb MLAカーネル
- Authors: Ahmet Caner Yüzügüler, Ahmet Çelik, Jiawei Zhuang, Lukas Cavigelli,
- Abstract要約: MLA(Multi-Head Latent Attention)は、DeepSeek-v3やKim K2といった最先端のLLMで採用されている、最近の注目メカニズムである。
新たな定式化により、MLAは2つの機能的に等価だが、計算的に異なるカーネル実装(ナイーブと吸収)を可能にする。
我々は,両者の強みを活かすために,ナイーブと吸収式を組み合わせたハイブリッドアプローチであるTyphoonMLAを紹介する。
- 参考スコア(独自算出の注目度): 4.490333714787712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Head Latent Attention (MLA) is a recent attention mechanism adopted in state-of-the-art LLMs such as DeepSeek-v3 and Kimi K2. Thanks to its novel formulation, MLA allows two functionally equivalent but computationally distinct kernel implementations: naive and absorb. While the naive kernels (e.g., FlashAttention) are typically preferred in training and prefill for their computational efficiency, existing decoding kernels (e.g., FlashMLA) rely on the absorb method to minimize HBM bandwidth usage. However, the compute-bound nature of the absorb implementations prohibits performance benefits from data reuse opportunities in attention calculations, such as shared prefixes. In this work, we introduce TyphoonMLA, a hybrid approach that combines naive and absorb formulations to harness the strengths of both. TyphoonMLA effectively leverages the shared prefix by applying the naive formulation to the compute-bound parts of attention calculations, while reducing the bandwidth requirements for non-shared parts by using the absorb formulation. As a result, TyphoonMLA improves the throughput of attention calculations in MLA architectures by up to 3x and 3.24x on NPU and GPUs, with only a 3% overhead in HBM size.
- Abstract(参考訳): MLA(Multi-Head Latent Attention)は、DeepSeek-v3やKim K2といった最先端のLLMで採用されている、最近の注目メカニズムである。
新たな定式化により、MLAは2つの機能的に等価だが、計算的に異なるカーネル実装(ナイーブと吸収)を可能にする。
単純なカーネル (例: FlashAttention) は訓練や計算効率の予備として好まれるが、既存のデコードカーネル (例: FlashMLA) はHBM帯域幅の使用を最小化するために吸収方式に依存している。
しかし、吸収実装の計算バウンドの性質は、共有プレフィックスのような注意計算におけるデータ再利用の機会によるパフォーマンスの利点を阻害する。
本研究では, ナイーブと吸収式を組み合わせたハイブリッドアプローチであるTyphoonMLAを紹介する。
タイフーンMLAは、注意計算の計算バウンド部分にナイーブ定式化を適用し、吸収定式化を用いて非共有部品の帯域幅要件を低減し、共有プレフィックスを効果的に活用する。
その結果、TyphoonMLAは、HBMサイズでわずか3%のオーバーヘッドで、NPUおよびGPU上で、MLAアーキテクチャの注意計算のスループットを最大3倍と3.24倍改善した。
関連論文リスト
- EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs [8.093922145280326]
キー値(KV)キャッシュサイズは、大規模言語モデル(LLM)における効率的な推論を実現するための重要なステップである。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することでこれを緩和している。
MLAの新たな拡張である textbfEmbedding-Gated Multi-head Latent Attention (EG-MLA) を提案する。
論文 参考訳(メタデータ) (2025-09-20T13:27:13Z) - FlashForge: Ultra-Efficient Prefix-Aware Attention for LLM Decoding [44.47821531299985]
複数のプロンプト間のプレフィックス共有は、共有プレフィックスの操作を組み合わせる機会を提供する。
デコーディングは、プレフィックスのキー値(KV)キャッシュに大量のメモリアクセスを必要とするメモリ集約プロセスである。
我々は,共有KVキャッシュのメモリアクセスをデコードステージ,すなわちFlashForgeで組み合わせるための専用アテンションカーネルを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:03:28Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [30.770661469301544]
MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文 参考訳(メタデータ) (2025-03-14T06:49:37Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Mining Relations among Cross-Frame Affinities for Video Semantic
Segmentation [87.4854250338374]
関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。
実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。
論文 参考訳(メタデータ) (2022-07-21T12:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。