論文の概要: SPLA: Block Sparse Plus Linear Attention for Long Context Modeling
- arxiv url: http://arxiv.org/abs/2601.22379v1
- Date: Thu, 29 Jan 2026 22:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.107387
- Title: SPLA: Block Sparse Plus Linear Attention for Long Context Modeling
- Title(参考訳): SPLA:Long Context Modelingのためのブロックスパースプラス線形アテンション
- Authors: Bailin Wang, Dan Friedman, Tao Lei, Chong Wang,
- Abstract要約: ブロックワイズ・スパース・アテンションは、ロングコンテキスト・モデリングにおいて大きな効率性をもたらす。
既存の手法は、選択されていないブロックを完全に破棄することで、選択の不確かさと累積的な文脈損失に悩まされることが多い。
本稿では,Sparse Plus Linear Attention (SPLA) について紹介する。これは2階Taylor展開から導かれる選択指標を利用して,正確な注意を払って関連するブロックを正確に識別するフレームワークである。
- 参考スコア(独自算出の注目度): 27.679279650511848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-wise sparse attention offers significant efficiency gains for long-context modeling, yet existing methods often suffer from low selection fidelity and cumulative contextual loss by completely discarding unselected blocks. To address these limitations, we introduce Sparse Plus Linear Attention (SPLA), a framework that utilizes a selection metric derived from second-order Taylor expansions to accurately identify relevant blocks for exact attention. Instead of discarding the remaining "long tail," SPLA compresses unselected blocks into a compact recurrent state via a residual linear attention (RLA) module. Crucially, to avoid IO overhead, we derive an optimized subtraction-based formulation for RLA -- calculating the residual as the difference between global and selected linear attention -- ensuring that unselected blocks are never explicitly accessed during inference. Our experiments demonstrate that SPLA closes the performance gap in continual pretraining, surpassing dense attention models on long-context benchmarks like RULER while maintaining competitive general knowledge and reasoning capabilities.
- Abstract(参考訳): ブロックワイズ・スパース・アテンション(Block-wise sparse attention)は、長いコンテキスト・モデリングにおいて顕著な効率向上をもたらすが、既存の手法では、選択精度が低く、非選択ブロックを完全に破棄することで、累積的な文脈損失に悩まされることが多い。
これらの制約に対処するため,Sparse Plus Linear Attention (SPLA) というフレームワークを導入する。
残りの「ロングテール」を捨てる代わりに、SPLAは未選択のブロックをリザーブリニアアテンション(RLA)モジュールを介してコンパクトなリカレント状態に圧縮する。
重要なことは、IOオーバーヘッドを避けるために、最適化されたサブトラクションベースのRLAの定式化が導出されます -- グローバルと選択された線形注意の差として残余を計算することで、推論中に未選択のブロックが明示的にアクセスされることを保証します。
我々の実験は、SPLAが連続事前学習における性能ギャップを埋め、RULERのような長文ベンチマークにおいて、競合する一般知識と推論能力を維持しながら、集中的な注意モデルを上回ることを示した。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs [17.499497967319332]
データ駆動型フレームワークであるDynamic Hierarchical Sparse Attention (DHSA)を導入する。
DHSAは高い注意力と精度を一致させ、プリフィル遅延を20-60%削減し、ピークメモリ使用量を35%削減した。
Needle-in-a-Haystack Test と LongBench を用いたGemma2 実験では,DHSA の精度は高いが,プリフィル遅延は20~60%,ピークメモリ使用量は35%削減された。
論文 参考訳(メタデータ) (2025-10-28T16:34:18Z) - Sparser Block-Sparse Attention via Token Permutation [46.22204775916057]
本稿では,ブロックレベルの空間性を高めるために,注目の置換特性を活用するプラグイン・アンド・プレイ方式であるPermuted Block-Sparse Attention (textbfPBS-Attn)を提案する。
PBS-Attnは、カスタムのpermuted-FlashAttentionカーネルをベースとして、長文プリフィルで最大2.75タイムのエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-10-24T09:11:50Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。