論文の概要: FlashMLA-ETAP: Efficient Transpose Attention Pipeline for Accelerating MLA Inference on NVIDIA H20 GPUs
- arxiv url: http://arxiv.org/abs/2506.01969v2
- Date: Wed, 04 Jun 2025 03:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:49.041191
- Title: FlashMLA-ETAP: Efficient Transpose Attention Pipeline for Accelerating MLA Inference on NVIDIA H20 GPUs
- Title(参考訳): FlashMLA-ETAP:NVIDIA H20 GPU上でのMLA推論を高速化するための効率的な変換アテンションパイプライン
- Authors: Pengcuo Dege, Qiuming Luo, Rui Mao, Chang Kong,
- Abstract要約: 本稿では,単一インスタンス配置シナリオに対するMLA推論を強化する新しいフレームワークであるFlashMLA-ETAPを紹介する。
ETAP は、KV コンテキスト長を WGMMA 操作の (M)-次元と整合させるために、変換による注意計算を再構成する。
FlashMLA-ETAPは64Kシーケンス長(バッチサイズ16)でのFlashMLAの2.78倍の高速化を実現し、それぞれFlashAttention-3とFlashInferの5.24倍と4.94倍の改善を実現している。
- 参考スコア(独自算出の注目度): 2.9406946721643092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient inference of Multi-Head Latent Attention (MLA) is challenged by deploying the DeepSeek-R1 671B model on a single Multi-GPU server. This paper introduces FlashMLA-ETAP, a novel framework that enhances MLA inference for the single-instance deployment scenario on NVIDIA H20 GPUs. We propose the Efficient Transpose Attention Pipeline (ETAP), which reconfigures attention computation through transposition to align the KV context length with the \(M\)-dimension in WGMMA operations, significantly reducing redundant computations. FlashMLA-ETAP achieves a 2.78x speedup over FlashMLA at 64K sequence length (batch size 16), with 5.24x and 4.94x improvements over FlashAttention-3 and FlashInfer, respectively, while maintaining numerical stability with a 15.2x lower RMSE (\(1.25 \times 10^{-5}\)) than FlashAttention-3. Furthermore, ETAP's design enables seamless integration into frameworks like FlashAttention-3 and FlashInfer, supported by a detailed theoretical analysis. Our work addresses a critical gap in resource-constrained inference, offering a scalable solution for mid-tier GPUs and paving the way for broader adoption in hardware-aware optimization. Code is available at https://github.com/pengcuo/FlashMLA-ETAP.
- Abstract(参考訳): マルチGPUサーバ上にDeepSeek-R1 671Bモデルをデプロイすることで,MLA(Multi-Head Latent Attention)の効率的な推論に挑戦する。
本稿では,NVIDIA H20 GPU上での単一インスタンス配置シナリオに対するMLA推論を強化する新しいフレームワークであるFlashMLA-ETAPを紹介する。
本稿では,KVコンテキスト長を WGMMA 操作の \(M\)-次元と整合させるために,変換によるアテンション計算を再構成し,冗長な計算を著しく削減する ETAP (Efficient Transpose Attention Pipeline) を提案する。
FlashMLA-ETAPは64Kシークエンス(バッチサイズ16)でのFlashMLAの2.78倍の高速化を実現し、FlashAttention-3とFlashInferの5.24倍と4.94倍の改善を実現し、数値安定性はFlashAttention-3より15.2倍低いRMSE(\(1.25 \times 10^{-5}\)で維持された。
さらに、ETAPの設計は、詳細な理論的分析によってサポートされているFlashAttention-3やFlashInferのようなフレームワークへのシームレスな統合を可能にする。
われわれの研究は、リソース制約のある推論における重要なギャップに対処し、中間層GPUのためのスケーラブルなソリューションを提供し、ハードウェア対応の最適化を広く採用するための道を開いた。
コードはhttps://github.com/pengcuo/FlashMLA-ETAP.comで入手できる。
関連論文リスト
- FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving [9.386969461835433]
FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンである
ブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。
また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
論文 参考訳(メタデータ) (2025-01-02T02:02:20Z) - FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression [76.01465333271229]
マルチモーダルな大言語モデル(MLLM)は、実用的な用途において、スロットのように振る舞う。
近年の取り組みは、より効率よく小さなMLLMを構築することに集中しているが、視覚トークンの多さは、実際のスピードアップを制限している。
本稿ではFlashSlothと呼ばれる強力で高速な小型MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:34:07Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。