論文の概要: S2O: Early Stopping for Sparse Attention via Online Permutation
- arxiv url: http://arxiv.org/abs/2602.22575v1
- Date: Thu, 26 Feb 2026 03:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.507356
- Title: S2O: Early Stopping for Sparse Attention via Online Permutation
- Title(参考訳): S2O: オンライン置換によるスパースアテンションの早期停止
- Authors: Yu Zhang, Songwei Liu, Chenqian Yan, Sheng Lin, Beichen Ning, Fangmin Chen, Xing Wang,
- Abstract要約: S2Oは、オンライン・パーミューテーションによるスパークアテンションの早期停止を行う。
メモリシステムにおける仮想物理アドレスマッピングにインスパイアされたS2Oは、Flashの実行を再検討し、分解する。
非常に軽量な前処理とインデックスリマッピングのオーバーヘッドにより、高優先度ブロックの小さなセットに重点を置いている。
- 参考スコア(独自算出の注目度): 8.663038872273512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention scales quadratically with sequence length, fundamentally limiting long-context inference. Existing block-granularity sparsification can reduce latency, but coarse blocks impose an intrinsic sparsity ceiling, making further improvements difficult even with carefully engineered designs. We present S2O, which performs early stopping for sparse attention via online permutation. Inspired by virtual-to-physical address mapping in memory systems, S2O revisits and factorizes FlashAttention execution, enabling inference to load non-contiguous tokens rather than a contiguous span in the original order. Motivated by fine-grained structures in attention heatmaps, we transform explicit permutation into an online, index-guided, discrete loading policy; with extremely lightweight preprocessing and index-remapping overhead, it concentrates importance on a small set of high-priority blocks. Building on this importance-guided online permutation for loading, S2O further introduces an early-stopping rule: computation proceeds from high to low importance; once the current block score falls below a threshold, S2O terminates early and skips the remaining low-contribution blocks, thereby increasing effective sparsity and reducing computation under a controlled error budget. As a result, S2O substantially raises the practical sparsity ceiling. On Llama-3.1-8B under a 128K context, S2O reduces single-operator MSE by 3.82$\times$ at matched sparsity, and reduces prefill compute density by 3.31$\times$ at matched MSE; meanwhile, it preserves end-to-end accuracy and achieves 7.51$\times$ attention and 3.81$\times$ end-to-end speedups.
- Abstract(参考訳): アテンションは配列長と2次的にスケールし、基本的に長文推論を制限する。
既存のブロック粒度スペーシフィケーションは遅延を低減できるが、粗いブロックは固有のスペーシシー天井を課し、慎重に設計した設計でもさらなる改善が困難になる。
S2Oは、オンライン・パーミューテーションによるスパークアテンションの早期停止を行う。
メモリシステムにおける仮想アドレスマッピングにインスパイアされたS2Oは、FlashAttentionの実行を再検討し、分解する。
注目熱マップの微細な構造によって動機付けされ、明示的な置換をオンライン、インデックス誘導、離散的なロードポリシーに変換する。
計算は高から低に進み、現在のブロックスコアがしきい値を下回ると、S2Oは早期に終了し、残りの低コントリビューションブロックをスキップし、効果的に間隔を増し、制御されたエラー予算の下で計算を削減します。
その結果、S2Oは実用的疎水性天井を著しく上昇させる。
128Kコンテキスト下でのLlama-3.1-8Bでは、シングルオペレータMSEを3.82$\times$、マッチしたMSEでのプリフィル計算密度を3.31$\times$、エンドツーエンドの精度を維持し、7.51$\times$ attentionと3.81$\times$ end-to-end speedupを達成している。
関連論文リスト
- Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - No Cache Left Idle: Accelerating diffusion model via Extreme-slimming Caching [17.396336005757025]
トレーニングフリーでキャッシュベースのアクセラレータであるX-Slim(e-Xtreme-Slimming Caching)を提案する。
タイムステップ、構造(ブロック)、空間(トークン)にわたってキャッシュ可能な冗長性を利用する最初の統一されたフレームワークである。
遅延を最大4.97倍と3.52倍に減らし、知覚損失を最小限に抑える。
論文 参考訳(メタデータ) (2025-12-14T09:02:18Z) - BitStopper: An Efficient Transformer Attention Accelerator via Stage-fusion and Early Termination [14.53308613746613]
BitStopperは、粒度の細かいアルゴリズムアーキテクチャの共設計で、スパーシティ予測器を使わずに動作する。
サンガーとSOFAの2.03倍と1.89倍のスピードアップを実現し、エネルギー効率は2.4倍と2.1倍向上した。
論文 参考訳(メタデータ) (2025-12-06T14:44:38Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Sparser Block-Sparse Attention via Token Permutation [46.22204775916057]
本稿では,ブロックレベルの空間性を高めるために,注目の置換特性を活用するプラグイン・アンド・プレイ方式であるPermuted Block-Sparse Attention (textbfPBS-Attn)を提案する。
PBS-Attnは、カスタムのpermuted-FlashAttentionカーネルをベースとして、長文プリフィルで最大2.75タイムのエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-10-24T09:11:50Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。