論文の概要: Flash Sparse Attention: An Alternative Efficient Implementation of Native Sparse Attention Kernel
- arxiv url: http://arxiv.org/abs/2508.18224v1
- Date: Mon, 25 Aug 2025 17:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.883845
- Title: Flash Sparse Attention: An Alternative Efficient Implementation of Native Sparse Attention Kernel
- Title(参考訳): Flashスパース注意:ネイティブスパース注意カーネルの効率的な実装
- Authors: Ran Yan, Youhe Jiang, Binhang Yuan,
- Abstract要約: 我々は、効率的なNSA計算のための代替カーネル設計を含むFlash Sparse Attention (FSA)を提案する。
バニラのNSAカーネル実装と比較して、FSAは3.5$times$、平均1.6$times$カーネルレベルのレイテンシ低減を実現している。
- 参考スコア(独自算出の注目度): 19.5925453891753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in sparse attention mechanisms has demonstrated strong potential for reducing the computational cost of long-context training and inference in large language models (LLMs). Native Sparse Attention (NSA), a state-of-the-art approach, introduces natively trainable, hardware-aligned sparse attention that delivers substantial system-level performance gains while maintaining accuracy comparable to full attention. However, the kernel implementation of NSA relies on a query-grouping strategy that is efficient only with large Grouped Query Attention (GQA) sizes, whereas modern LLMs typically adopt much smaller GQA groups, which limits the applicability of this sparse algorithmic advance. In this work, we propose Flash Sparse Attention (FSA), which includes an alternative kernel design that enables efficient NSA computation across a wide range of popular LLMs with varied smaller GQA group sizes on modern GPUs. Compared to vanilla NSA kernel implementation, our empirical evaluation demonstrates that FSA achieves (i) up to 3.5$\times$ and on average 1.6$\times$ kernel-level latency reduction, (ii) up to 1.25$\times$ and 1.09$\times$ on average end-to-end training speedup on state-of-the-art LLMs, and (iii) up to 1.36$\times$ and 1.11$\times$ on average end-to-end prefill speedup on state-of-the-art LLMs. The source code is open-sourced and publicly available at https://github.com/Relaxed-System-Lab/Flash-Sparse-Attention.
- Abstract(参考訳): 近年のスパースアテンション機構の進歩は、大規模言語モデル(LLM)における長文学習と推論の計算コストを削減できる可能性を示している。
最先端のアプローチであるNative Sparse Attention(NSA)は、ネイティブにトレーニング可能なハードウェア対応のスパースアテンションを導入し、システムレベルのパフォーマンス向上を実現しつつ、完全なアテンションに匹敵する精度を維持している。
しかし、NSAのカーネル実装は、大規模なグループクエリアテンション(GQA)サイズでのみ効率的であるクエリグループ化戦略に依存している。
本稿では,最新のGPU上でより小さなGQAグループサイズを持つ多種多様なLLMに対して,効率的なNSA計算を可能にする代替カーネル設計を含むFlash Sparse Attention (FSA)を提案する。
バニラNSAカーネルの実装と比較すると、FSAが達成した実証的な評価が得られます。
(i)最大3.5$\times$、平均1.6$\times$カーネルレベルのレイテンシ低減。
(ii)1.25$\times$と1.09$\times$まで、最先端のLCM上での平均エンドツーエンドのトレーニングスピードアップを行う。
(iii)1.36$\times$と1.11$\times$まで、最先端のLCMでは平均的なエンドツーエンドのプリフィルスピードアップを行う。
ソースコードはhttps://github.com/Relaxed-System-Lab/Flash-Sparse-Attentionで公開されている。
関連論文リスト
- Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。
オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。
我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文 参考訳(メタデータ) (2025-02-18T02:26:34Z) - Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。
LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。
本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T03:44:29Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - HSR-Enhanced Sparse Attention Acceleration [19.776342074253435]
大規模言語モデル(LLM)における注意計算を高速化する新しい手法を提案する。
我々は,従来のSoftmaxアテンションとReLUアテンションの両方において,アテンションメカニズム内の固有空間を利用する。
提案手法は,Softmaxの注意を確実に無視できる誤差を導入するのみである。
論文 参考訳(メタデータ) (2024-10-14T05:18:02Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。