論文の概要: BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding
- arxiv url: http://arxiv.org/abs/2512.12087v1
- Date: Fri, 12 Dec 2025 23:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.108955
- Title: BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding
- Title(参考訳): BLASST: Softmax Thresholdingによるダイナミックブラックドアテンションスパシティ
- Authors: Jiayi Yuan, Cameron Shinn, Kai Xu, Jingze Cui, George Klimiashvili, Guangxuan Xiao, Perkz Zheng, Bo Li, Yuxin Zhou, Zhouhai Ye, Weijie You, Tian Zheng, Dominic Brown, Pengbo Wang, Richard Cai, Julien Demouth, John D. Owens, Xia Hu, Song Han, Timmy Liu, Huizi Mao,
- Abstract要約: 本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
- 参考スコア(独自算出の注目度): 28.11907989174509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for long-context inference capabilities in Large Language Models (LLMs) has intensified the computational and memory bottlenecks inherent to the standard attention mechanism. To address this challenge, we introduce BLASST, a drop-in sparse attention method that dynamically prunes the attention matrix without any pre-computation or proxy scores. Our method uses a fixed threshold and existing information from online softmax to identify negligible attention scores, skipping softmax computation, Value block loading, and the subsequent matrix multiplication. This fits seamlessly into existing FlashAttention kernel designs with negligible latency overhead. The approach is applicable to both prefill and decode stages across all attention variants (MHA, GQA, MQA, and MLA), providing a unified solution for accelerating long-context inference. We develop an automated calibration procedure that reveals a simple inverse relationship between optimal threshold and context length, enabling robust deployment across diverse scenarios. Maintaining high accuracy, we demonstrate a 1.62x speedup for prefill at 74.7% sparsity and a 1.48x speedup for decode at 73.2% sparsity on modern GPUs. Furthermore, we explore sparsity-aware training as a natural extension, showing that models can be trained to be inherently more robust to sparse attention patterns, pushing the accuracy-sparsity frontier even further.
- Abstract(参考訳): LLM(Large Language Models)における長文推論機能への需要が高まり、標準の注意機構に固有の計算とメモリのボトルネックが強まった。
この課題に対処するために,プリ計算やプロキシスコアを使わずに,アテンションマトリックスを動的にプーンする,ドロップインスパースアテンション手法であるBLASSTを導入する。
提案手法では,オンラインソフトマックスから得られる固定しきい値と既存の情報を用いて,無視可能なアテンションスコアの同定,ソフトマックス計算のスキップ,バリューブロックローディング,およびその後の行列乗算を行う。
これは、無視できる遅延オーバーヘッドを伴う既存のFlashAttentionカーネル設計にシームレスに適合する。
このアプローチは、すべての注目の亜種(MHA、GQA、MQA、MLA)のプリフィルとデコードの両方に適用でき、ロングコンテキスト推論を加速するための統一されたソリューションを提供する。
最適しきい値とコンテキスト長の単純な逆関係を明らかにする自動キャリブレーション手法を開発し,多様なシナリオにまたがるロバストな展開を実現する。
高い精度を維持するために、プリフィルの1.62倍のスピードアップを74.7%の間隔で、デコードの1.48倍のスピードアップを73.2%の間隔で最新のGPUで示す。
さらに, 空間認識学習を自然な拡張として検討し, 注意パターンのスパースに対して, モデルが本質的に堅牢であるように訓練できることを示し, 精度・スパーシティフロンティアをさらに推し進める。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - SpecAttn: Speculating Sparse Attention [1.6921396880325779]
SpecAttnは、投機的復号化技術とシームレスに統合する、新しいトレーニング不要のアプローチである。
私たちの重要な洞察は、投機的復号中にドラフトモデルによって既に計算されている注意重みを利用して、ターゲットモデルの重要なトークンを特定することです。
SpecAttnは、PG-19データセットのパープレキシティをわずか15.29%増加させ、キー値キャッシュアクセスを75%以上削減する。
論文 参考訳(メタデータ) (2025-10-31T17:12:34Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。