論文の概要: Block Sparse Flash Attention
- arxiv url: http://arxiv.org/abs/2512.07011v1
- Date: Sun, 07 Dec 2025 21:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.638241
- Title: Block Sparse Flash Attention
- Title(参考訳): Block Sparse Flash の注意
- Authors: Daniel Ohayon, Itay Lamprecht, Itay Hubara, Israel Cohen, Daniel Soudry, Noam Elata,
- Abstract要約: Block-Sparse FlashAttentionはFlashAttentionの代替になる。
クエリキーの正確な類似性を計算し、クエリ毎に最上位の最も重要な値ブロックを選択する。
実世界の推論ベンチマークで最大1.10倍のスピードアップを実現し、最大1.24倍のニードル・イン・ア・ヘイスタック検索タスクを実現している。
- 参考スコア(独自算出の注目度): 29.499030734003952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models increasingly require long contexts for reasoning and multi-document tasks, but attention's quadratic complexity creates a severe computational bottleneck. We present Block-Sparse FlashAttention (BSFA), a drop-in replacement that accelerates long-context inference while preserving model quality. Unlike methods that predict importance before computing scores, BSFA computes exact query-key similarities to select the top-k most important value blocks for each query. By comparing per-block maximum scores against calibrated thresholds, we skip approximately 50% of the computation and memory transfers for pruned blocks. Our training-free approach requires only a one-time threshold calibration on a small dataset to learn the per-layer and per-head attention score distributions. We provide a CUDA kernel implementation that can be used as a drop-in replacement for FlashAttention. On Llama-3.1-8B, BSFA achieves up to 1.10x speedup on real-world reasoning benchmarks and up to 1.24x for needle-in-a-haystack retrieval tasks while maintaining above 99% baseline accuracy, with certain configurations even improving accuracy by focusing on the most relevant content, substantially outperforming existing sparse attention methods. The implementation is available at https://github.com/Danielohayon/Block-Sparse-Flash-Attention
- Abstract(参考訳): 現代の大規模言語モデルは、推論やマルチドキュメントタスクに長いコンテキストを必要とする傾向にあるが、注意の二次的な複雑さは深刻な計算ボトルネックを生み出している。
本稿では,Block-Sparse FlashAttention (BSFA)を提案する。
スコアを計算する前に重要度を予測する方法とは異なり、BSFAはクエリキーの正確な類似性を計算し、クエリ毎に最上位の最も重要な値ブロックを選択する。
ブロックごとの最大スコアを校正閾値と比較することにより、プリンドブロックの計算とメモリ転送の約50%をスキップする。
トレーニング不要のアプローチでは,1層当たりおよび頭当たりの注意点分布を学習するために,小さなデータセット上で1時間分のしきい値校正しか必要としない。
我々は、FlashAttentionのドロップイン代替として使用できるCUDAカーネル実装を提供する。
Llama-3.1-8Bでは、BSFAは実世界の推論ベンチマークで最大1.10倍のスピードアップを達成し、ニードル・イン・ア・ヘイスタック検索タスクでは最大1.24倍のスピードアップを達成し、99%以上のベースライン精度を維持しながら、特定の構成では、最も関連性の高いコンテンツにフォーカスすることで精度を向上し、既存のスパースアテンション手法よりも大幅に向上している。
実装はhttps://github.com/Danielohayon/Block-Sparse-Flash-Attentionで公開されている。
関連論文リスト
- Efficient Low Rank Attention for Long-Context Inference in Large Language Models [41.24530756499533]
低ランククエリとキーアテンション(LRQK)は、プリフィル段階で、完全精度クエリとキー行列をコンパクトなランク-(r)要素に分解するフレームワークである。
トップ(k)トークンと、最近のトークンの小さな固定セットだけを選択することで、LRQKは、完全に精度の低いKVペアだけを転送するヒットアンドミス機構を備えた混合GPU-CPUキャッシュを使用する。
論文 参考訳(メタデータ) (2025-10-25T11:43:27Z) - Sparser Block-Sparse Attention via Token Permutation [46.22204775916057]
本稿では,ブロックレベルの空間性を高めるために,注目の置換特性を活用するプラグイン・アンド・プレイ方式であるPermuted Block-Sparse Attention (textbfPBS-Attn)を提案する。
PBS-Attnは、カスタムのpermuted-FlashAttentionカーネルをベースとして、長文プリフィルで最大2.75タイムのエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-10-24T09:11:50Z) - ProxyAttn: Guided Sparse Attention via Representative Heads [59.03412871683236]
より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:10:39Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs [8.649971923487835]
本稿では,CritiPrefillを提案する。
CritiPrefillは、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割する。
複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、単一のA100 GPUで128Kのコンテキスト長を持つ。
論文 参考訳(メタデータ) (2024-09-19T06:09:56Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。