論文の概要: Making Every Head Count: Sparse Attention Without the Speed-Performance Trade-off
- arxiv url: http://arxiv.org/abs/2511.09596v1
- Date: Fri, 14 Nov 2025 01:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.359754
- Title: Making Every Head Count: Sparse Attention Without the Speed-Performance Trade-off
- Title(参考訳): スピードとパフォーマンスのトレードオフのない、まともなアテンション
- Authors: Mingkuan Zhao, Wentao Hu, Jiayin Wang, Xin Lai, Tianchen Huang, Yuheng Min, Rui Yan, Xiaoyan Zhu,
- Abstract要約: 既存のスパース手法は、しばしば計算効率のために情報の整合性を交換する。
我々はSPAttentionを提案し、その中心となる貢献は、原則的構造スパーシリティ(Principled Structure Sparsity)という新しいパラダイムの導入である。
SPAttentionは、全注目作業負荷をバランスの取れた非重なり合う距離バンドに再編成し、各ヘッドにユニークなセグメントを割り当てる。
- 参考スコア(独自算出の注目度): 20.259111403684006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of Large Language Models (LLMs) has long been hampered by a fundamental conflict within their core attention mechanism: its remarkable expressivity is built upon a computational complexity of $O(H \cdot N^2)$ that grows quadratically with the context size ($N$) and linearly with the number of heads ($H$). This standard implementation harbors significant computational redundancy, as all heads independently compute attention over the same sequence space. Existing sparse methods, meanwhile, often trade information integrity for computational efficiency. To resolve this efficiency-performance trade-off, we propose SPAttention, whose core contribution is the introduction of a new paradigm we term Principled Structural Sparsity. SPAttention does not merely drop connections but instead reorganizes the computational task by partitioning the total attention workload into balanced, non-overlapping distance bands, assigning each head a unique segment. This approach transforms the multi-head attention mechanism from $H$ independent $O(N^2)$ computations into a single, collaborative $O(N^2)$ computation, fundamentally reducing complexity by a factor of $H$. The structured inductive bias compels functional specialization among heads, enabling a more efficient allocation of computational resources from redundant modeling to distinct dependencies across the entire sequence span. Extensive empirical validation on the OLMoE-1B-7B and 0.25B-1.75B model series demonstrates that while delivering an approximately two-fold increase in training throughput, its performance is on par with standard dense attention, even surpassing it on select key metrics, while consistently outperforming representative sparse attention methods including Longformer, Reformer, and BigBird across all evaluation metrics.
- Abstract(参考訳): その顕著な表現力は、コンテキストサイズ(N$)で2倍に成長し、ヘッド数(H$)で線形に成長する$O(H \cdot N^2)$の計算複雑性の上に構築されている。
この標準実装は、全てのヘッドが同じシーケンス空間上で独立に注意を計算するため、大きな計算冗長性を持つ。
一方、既存のスパース手法は、しばしば計算効率のために情報整合性を交換する。
この効率性と性能のトレードオフを解決するため、我々はSPAttentionを提案し、その中心となる貢献は、原則的構造スパーシティー(Principled Structure Sparsity)という新しいパラダイムの導入である。
SPAttentionは単に接続をドロップするだけでなく、全アテンションワークロードをバランスの取れた非重なり合う距離バンドに分割して計算タスクを再編成し、それぞれのヘッドにユニークなセグメントを割り当てる。
このアプローチは、マルチヘッドアテンション機構を、$H$独立$O(N^2)$計算から1つの協調$O(N^2)$計算に変換する。
構造的帰納バイアスは、ヘッド間の機能的特殊化を補完し、冗長なモデリングからシーケンス全体の異なる依存関係への計算資源のより効率的な割り当てを可能にする。
OLMoE-1B-7B と 0.25B-1.75B モデルシリーズの大規模な実証検証では、トレーニングスループットが約2倍に向上する一方で、その性能は標準的な集中度に匹敵するものであり、選択された主要な指標においてさえ上回っており、ロングフォーマー、リフォーマー、ビッグバードなどの代表的注意法を一貫して上回っている。
関連論文リスト
- From Uniform to Adaptive: General Skip-Block Mechanisms for Efficient PDE Neural Operators [14.52312990532001]
我々は,Transformerベースのニューラル演算子用に設計された一般的なフレームワークであるSkip-Block Routing(SBR)を紹介する。
SBRはルーティングメカニズムを使用してトークンの複雑さとランキングを学習し、推論中に適用される。
本手法は浮動小数点演算(FLOP)の計算コストを約50%削減する。
論文 参考訳(メタデータ) (2025-10-27T03:58:09Z) - Element-wise Attention Is All You Need [0.0]
自己注意機構は、様々な領域で優れたパフォーマンスを持つが、トレーニングと推論の両方で複雑さに悩まされる。
ドット積演算の代わりにユークリッド距離を用いて類似性を計算する新しい要素ワイドアテンション機構を提案する。
推論中はリカレントニューラルネットワークとして再計算でき、$mathcalO(tD)$を推論することができる。
論文 参考訳(メタデータ) (2025-01-10T05:54:04Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Achieving PAC Guarantees in Mechanism Design through Multi-Armed Bandits [8.013444110633223]
自動機構設計のための線形プログラム(LP)に最適解のクラスを解析的に導出する。
これらの解は、元の定式化における変数の総数よりも指数関数的に小さい基本変数の集合を用いて表すことができる。
本稿では,この用語の評価をマルチアーム・バンディット(MAB)問題に翻訳することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-11-30T03:59:36Z) - RecurFormer: Not All Transformer Heads Need Self-Attention [14.331807060659902]
変換器をベースとした大規模言語モデル(LLM)は複雑な言語パターンをモデル化する上で優れているが、推論時にかなりの計算コストに直面している。
本稿では,リニアリカレントニューラルネットワークに注意を向ける新しいアーキテクチャであるRecurFormerを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:24:12Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Polynomial-Time Exact MAP Inference on Discrete Models with Global
Dependencies [83.05591911173332]
ジャンクションツリーアルゴリズムは、実行時の保証と正確なMAP推論のための最も一般的な解である。
本稿では,ノードのクローン化による新たなグラフ変換手法を提案する。
論文 参考訳(メタデータ) (2019-12-27T13:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。