論文の概要: AMLA: MUL by ADD in FlashAttention Rescaling
- arxiv url: http://arxiv.org/abs/2509.25224v1
- Date: Wed, 24 Sep 2025 10:04:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.907496
- Title: AMLA: MUL by ADD in FlashAttention Rescaling
- Title(参考訳): AMLA: FlashAttention RescalingにおけるAMDによるMUL
- Authors: Qichen Liao, Chengqiu Hu, Fangzheng Miao, Bao Li, Yiyang Liu, Junlong Lyu, Lirui Jiang, Jun Wang, Lingchao Zheng, Jun Li, Yuwei Fan,
- Abstract要約: MLA(Multi-head Latent Attention)は、大規模言語モデルにおけるKVCacheメモリ使用量を大幅に削減する。
本稿では,HuaweiのAscend NPU向けに最適化された高性能カーネルであるAscend MLAを紹介する。
- 参考スコア(独自算出の注目度): 9.20326267673456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head Latent Attention (MLA) significantly reduces KVCache memory usage in Large Language Models while introducing substantial computational overhead and intermediate variable expansion. This poses challenges for efficient hardware implementation -- especially during the decode phase. This paper introduces Ascend MLA (AMLA), a high-performance kernel specifically optimized for Huawei's Ascend NPUs. AMLA is built on two core innovations: (1) A novel FlashAttention-based algorithm that replaces floating-point multiplications with integer additions for output block rescaling, leveraging binary correspondence between FP32 and INT32 representations; (2) A Preload Pipeline strategy with hierarchical tiling that maximizes FLOPS utilization: the Preload Pipeline achieves Cube-bound performance, while hierarchical tiling overlaps data movement and computation within the Cube core. Experiments show that on Ascend 910 NPUs (integrated in CloudMatrix384), AMLA achieves up to 614 TFLOPS, reaching 86.8% of the theoretical maximum FLOPS, outperforming the state-of-the-art open-source FlashMLA implementation, whose FLOPS utilization is up to 66.7% on NVIDIA H800 SXM5. The AMLA kernel has been integrated into Huawei's CANN and will be released soon.
- Abstract(参考訳): MLA(Multi-head Latent Attention)は、大規模言語モデルにおけるKVCacheのメモリ使用量を大幅に削減し、計算オーバーヘッドと中間変数拡張を実現する。
これは、特にデコードフェーズにおいて、効率的なハードウェア実装の課題を引き起こします。
本稿では,HuaweiのAscend NPU向けに最適化された高性能カーネルであるAscend MLA(AMLA)を紹介する。
AMLAは,(1)FP32とINT32表現のバイナリ対応を利用して,浮動小数点乗算を整数加算に置き換える新しいFlashAttentionベースのアルゴリズム,(2)FLOPS利用を最大化する階層的タイリングを備えたプレロードパイプライン戦略:Preload Pipelineはキューブバウンド性能を達成する一方で,階層的タイリングはキューブコア内のデータ移動と計算を重複させる。
Ascend 910 NPU(CloudMatrix384に統合)では、AMLAは最大614 TFLOPSに達し、理論上の最大FLOPSの86.8%に達した。
AMLAカーネルはHuaweiのCANNに統合され、まもなくリリースされる予定である。
関連論文リスト
- Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。
これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文 参考訳(メタデータ) (2025-09-30T14:40:18Z) - Serving Large Language Models on Huawei CloudMatrix384 [28.88558053380112]
従来のAIクラスタは、計算強度、メモリ帯域幅、チップ間通信、レイテンシの制限に直面している。
本稿では,Huawei CloudMatrixを紹介する。Huawei CloudMatrixは,プロダクショングレードのCloudMatrix384スーパーノードで実現された次世代AIアーキテクチャである。
384 Ascend 910 NPUと192 Kunpeng CPUを超広帯域統一バス(UB)ネットワークを介して相互接続し、直接通信とリソースの動的プールを可能にする。
論文 参考訳(メタデータ) (2025-06-15T03:41:34Z) - FlashDMoE: Fast Distributed MoE in a Single Kernel [2.246222223318928]
FlashDMoEは、専門家の計算とGPU間通信を永続的なGPUカーネルに融合させる、完全にGPU対応のMoE演算子である。
我々は、FlashDMoEが、GPU使用率の高い textbf9$times$高レイテンシ、 textbf6$times$高スループット、 textbf5.7$高スループット、 textbf4$times$高重複効率であることを示す。
論文 参考訳(メタデータ) (2025-06-05T06:29:14Z) - FlashMLA-ETAP: Efficient Transpose Attention Pipeline for Accelerating MLA Inference on NVIDIA H20 GPUs [2.9406946721643092]
本稿では,単一インスタンス配置シナリオに対するMLA推論を強化する新しいフレームワークであるFlashMLA-ETAPを紹介する。
ETAP は、KV コンテキスト長を WGMMA 操作の (M)-次元と整合させるために、変換による注意計算を再構成する。
FlashMLA-ETAPは64Kシーケンス長(バッチサイズ16)でのFlashMLAの2.78倍の高速化を実現し、それぞれFlashAttention-3とFlashInferの5.24倍と4.94倍の改善を実現している。
論文 参考訳(メタデータ) (2025-05-13T17:45:34Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。