論文の概要: Prism: Spectral-Aware Block-Sparse Attention
- arxiv url: http://arxiv.org/abs/2602.08426v1
- Date: Mon, 09 Feb 2026 09:31:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.149075
- Title: Prism: Spectral-Aware Block-Sparse Attention
- Title(参考訳): Prism: スペクトル対応ブロックスパース注意
- Authors: Xinghao Wang, Pengyu Wang, Xiaoran Liu, Fangxu Liu, Jason Chu, Kai Song, Xipeng Qiu,
- Abstract要約: 既存の手法では、ブロックの重要度推定のプロキシとして、粗い注意力を用いるのが一般的である。
平均プーリングは、高周波次元における破壊干渉を引き起こす低域通過フィルタとして機能する。
ブロック選択を高周波および低周波分岐に分解する,トレーニング不要なスペクトル認識手法であるPrismを導入する。
- 参考スコア(独自算出の注目度): 46.31167787304103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a "blind spot" for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to $\mathbf{5.1\times}$ speedup.
- Abstract(参考訳): ブロックスパース(Block-sparse)は、LLMプリフィルの高速化を約束するが、関連するブロックを効果的に特定することはボトルネックのままである。
既存の手法は通常、ブロックの重要度推定のプロキシとして粗い注意を払っているが、しばしば高価なトークンレベルの探索やスコアリングに頼り、選択のオーバーヘッドが大きくなった。
本研究では,平均プールと回転位置埋め込み(RoPE)の相互作用という理論的な根本原因に,平均プールによる標準粗粒度注意の不正確さを追究する。
本研究では, 局所的な位置情報(スラッシュパターンなど)に対する「盲点」を効果的に生成し, 高周波次元における破壊干渉を誘発する低域通過フィルタとして機能することを示す。
そこで本研究では,ブロック選択を高周波および低周波分岐に分解する,トレーニング不要なスペクトル認識手法であるPrismを紹介する。
エネルギーベースの温度校正を適用することにより、Prismはプールされた表現から直接減衰した位置信号を復元し、純粋なブロックレベル演算を用いたブロック重要度推定を可能にし、効率を向上する。
広範囲な評価により、Prismは、最大$\mathbf{5.1\times}$ Speedupを納品しながら、十分な注意を払って精度の同等性を維持することが確認されている。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - PISA: Piecewise Sparse Attention Is Wiser for Efficient Diffusion Transformers [37.401543107035046]
拡散変換器はビデオおよび画像生成に基本となるが、その効率は注意の二次的複雑さによってボトルネックとなる。
PISA(Piecewise Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-02-01T07:47:06Z) - Amortized Spectral Kernel Discovery via Prior-Data Fitted Network [0.0]
本稿では,事前学習したPFNのスペクトル発見を非結合的に行うための解釈可能性駆動型フレームワークを提案する。
我々は、PFNラプタントを明示的なスペクトル密度推定と対応する定常カーネルにマッピングするデコーダアーキテクチャを提案する。
これにより、最適化ベースのベースラインと比較して、推論時間のオーダー・オブ・マグニチュードが減少する。
論文 参考訳(メタデータ) (2026-01-29T13:51:26Z) - DoPE: Denoising Rotary Position Embedding [60.779039511252584]
トランスフォーマーモデルにおける回転位置埋め込み(RoPE)は、長さを弱める固有の限界を持つ。
ノイズのある特徴写像として位置符号化を用いたアテンションマップを再解釈し、位置補間ページ(DoPE)を提案する。
DoPEは、トランカテッド行列エントロピーに基づくトレーニング不要な手法であり、特徴写像における外乱周波数帯域を検出する。
論文 参考訳(メタデータ) (2025-11-12T09:32:35Z) - ProxyAttn: Guided Sparse Attention via Representative Heads [59.03412871683236]
より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:10:39Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。