論文の概要: SnapMLA: Efficient Long-Context MLA Decoding via Hardware-Aware FP8 Quantized Pipelining
- arxiv url: http://arxiv.org/abs/2602.10718v1
- Date: Wed, 11 Feb 2026 10:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.760508
- Title: SnapMLA: Efficient Long-Context MLA Decoding via Hardware-Aware FP8 Quantized Pipelining
- Title(参考訳): SnapMLA: ハードウェアを意識したFP8量子パイプライニングによるリアルタイムMLAデコーディング
- Authors: Yifan Zhang, Zunhai Su, Shuhao Hu, Rui Yang, Wei Wu, Yulei Qian, Yuchen Xie, Xunliang Cai,
- Abstract要約: FP8 MLAデコードフレームワークであるSnapMLAを導入する。
本研究では,SnapMLAのスループットが最大1.91倍向上し,性能劣化のリスクが無視できることを示した。
- 参考スコア(独自算出の注目度): 23.095322374494184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While FP8 attention has shown substantial promise in innovations like FlashAttention-3, its integration into the decoding phase of the DeepSeek Multi-head Latent Attention (MLA) architecture presents notable challenges. These challenges include numerical heterogeneity arising from the decoupling of positional embeddings, misalignment of quantization scales in FP8 PV GEMM, and the need for optimized system-level support. In this paper, we introduce SnapMLA, an FP8 MLA decoding framework optimized to improve long-context efficiency through the following hardware-aware algorithm-kernel co-optimization techniques: (i) RoPE-Aware Per-Token KV Quantization, where the RoPE part is maintained in high precision, motivated by our comprehensive analysis of the heterogeneous quantization sensitivity inherent to the MLA KV cache. Furthermore, per-token granularity is employed to align with the autoregressive decoding process and maintain quantization accuracy. (ii) Quantized PV Computation Pipeline Reconstruction, which resolves the misalignment of quantization scale in FP8 PV computation stemming from the shared KV structure of the MLA KV cache. (iii) End-to-End Dataflow Optimization, where we establish an efficient data read-and-write workflow using specialized kernels, ensuring efficient data flow and performance gains. Extensive experiments on state-of-the-art MLA LLMs show that SnapMLA achieves up to a 1.91x improvement in throughput, with negligible risk of performance degradation in challenging long-context tasks, including mathematical reasoning and code generation benchmarks. Code is available at https://github.com/meituan-longcat/SGLang-FluentLLM.
- Abstract(参考訳): FP8の注目は、FlashAttention-3のようなイノベーションにおいて大きな可能性を示しているが、DeepSeek Multi-head Latent Attention (MLA)アーキテクチャのデコードフェーズへの統合は、顕著な課題を示している。
これらの課題には、位置埋め込みの分離による数値的不均一性、FP8 PV GEMMにおける量子化スケールの誤調整、最適化されたシステムレベルのサポートの必要性などが含まれる。
本稿では,FP8 MLAデコードフレームワークであるSnapMLAを紹介する。
i) RoPE部を高精度に維持する RoPE-Aware Per-Token KV Quantization は、MLA KVキャッシュに固有の不均一な量子化感度の包括的解析によって動機付けられる。
さらに、自己回帰復号プロセスと整合し、量子化精度を維持するために、トーケン毎の粒度を用いる。
(II) MLA KVキャッシュの共有KV構造から生じるFP8 PV計算における量子化スケールの不整合を解消する量子化PV計算パイプライン再構成
3) エンド・ツー・エンドのデータフロー最適化では,特定カーネルを用いた効率的なデータ読み書きワークフローを構築し,効率的なデータフローと性能向上を実現する。
最先端のMLL LLMに関する大規模な実験により、SnapMLAは1.91倍のスループット向上を実現し、数学的推論やコード生成ベンチマークを含む長文タスクにおけるパフォーマンス劣化の無視可能なリスクが示された。
コードはhttps://github.com/meituan-longcat/SGLang-FluentLLMで公開されている。
関連論文リスト
- P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats [10.43214279354138]
P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。
P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-11-10T08:29:34Z) - EG-MLA: Embedding-Gated Multi-head Latent Attention for Scalable and Efficient LLMs [8.093922145280326]
キー値(KV)キャッシュサイズは、大規模言語モデル(LLM)における効率的な推論を実現するための重要なステップである。
最近のMLA(Multi-head Latent Attention)の研究は、KV表現を共有潜在空間に圧縮することでこれを緩和している。
MLAの新たな拡張である textbfEmbedding-Gated Multi-head Latent Attention (EG-MLA) を提案する。
論文 参考訳(メタデータ) (2025-09-20T13:27:13Z) - Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [92.7279890407059]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。