論文の概要: Sparser Block-Sparse Attention via Token Permutation
- arxiv url: http://arxiv.org/abs/2510.21270v1
- Date: Fri, 24 Oct 2025 09:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 02:52:26.961267
- Title: Sparser Block-Sparse Attention via Token Permutation
- Title(参考訳): トークン置換によるスペーサーブロックスパース注意
- Authors: Xinghao Wang, Pengyu Wang, Dong Zhang, Chenkun Tan, Shaojun Zhou, Zhaoxiang Liu, Shiguo Lian, Fangxu Liu, Kai Song, Xipeng Qiu,
- Abstract要約: 本稿では,ブロックレベルの空間性を高めるために,注目の置換特性を活用するプラグイン・アンド・プレイ方式であるPermuted Block-Sparse Attention (textbfPBS-Attn)を提案する。
PBS-Attnは、カスタムのpermuted-FlashAttentionカーネルをベースとして、長文プリフィルで最大2.75タイムのエンドツーエンドのスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 46.22204775916057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling the context length of large language models (LLMs) offers significant benefits but is computationally expensive. This expense stems primarily from the self-attention mechanism, whose $O(N^2)$ complexity with respect to sequence length presents a major bottleneck for both memory and latency. Fortunately, the attention matrix is often sparse, particularly for long sequences, suggesting an opportunity for optimization. Block-sparse attention has emerged as a promising solution that partitions sequences into blocks and skips computation for a subset of these blocks. However, the effectiveness of this method is highly dependent on the underlying attention patterns, which can lead to sub-optimal block-level sparsity. For instance, important key tokens for queries within a single block may be scattered across numerous other blocks, leading to computational redundancy. In this work, we propose Permuted Block-Sparse Attention (\textbf{PBS-Attn}), a plug-and-play method that leverages the permutation properties of attention to increase block-level sparsity and enhance the computational efficiency of LLM prefilling. We conduct comprehensive experiments on challenging real-world long-context datasets, demonstrating that PBS-Attn consistently outperforms existing block-sparse attention methods in model accuracy and closely matches the full attention baseline. Powered by our custom permuted-FlashAttention kernels, PBS-Attn achieves an end-to-end speedup of up to $2.75\times$ in long-context prefilling, confirming its practical viability. Code available at https://github.com/xinghaow99/pbs-attn
- Abstract(参考訳): 大規模言語モデル(LLM)のコンテキスト長のスケーリングは大きなメリットがあるが、計算コストが高い。
このコストは主に自己保持機構に起因しており、シーケンス長に対する$O(N^2)$の複雑さは、メモリとレイテンシの両方において大きなボトルネックとなる。
幸いなことに、注意行列はしばしばスパースであり、特に長い列に対して、最適化の機会を示唆している。
ブロックスパース(Block-sparse)は、シーケンスをブロックに分割し、これらのブロックのサブセットの計算をスキップする有望なソリューションとして登場した。
しかし,本手法の有効性は,その基盤となる注意パターンに大きく依存している。
例えば、単一のブロック内のクエリに対する重要なキートークンは、他の多くのブロックに分散して、計算の冗長性につながる可能性がある。
本研究では, ブロックレベルの空間性を高め, LLMプリフィルの計算効率を高めるために, 注目点の置換特性を利用するプラグアンドプレイ方式であるPermuted Block-Sparse Attention (\textbf{PBS-Attn})を提案する。
本研究では, PBS-Attnが既存のブロックスパースアテンション手法をモデル精度で一貫して上回り, 全アテンションベースラインと密に一致していることを示す。
PBS-Attnは、我々のカスタムのpermuted-FlashAttentionカーネルによって、最大2.75\times$のエンドツーエンドのスピードアップを実現し、その実用性を確認する。
https://github.com/xinghaow99/pbs-attn
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - XAttention: Block Sparse Attention with Antidiagonal Scoring [10.517760961650279]
LCTM(Long-context Transformer Models)は、現実世界のアプリケーションには不可欠であるが、注意の2次複雑さのために計算コストが高い。
本稿では,Sparse attention を用いてトランスフォーマーモデルにおける長文推論を劇的に高速化するプラグイン・アンド・プレイフレームワーク XAttention を紹介する。
論文 参考訳(メタデータ) (2025-03-20T17:59:58Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。