論文の概要: SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
- arxiv url: http://arxiv.org/abs/2511.20102v1
- Date: Tue, 25 Nov 2025 09:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.380314
- Title: SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space
- Title(参考訳): SSA:特徴空間におけるスパース出力とスパースアテンション出力の調整によるスパースアテンション
- Authors: Zhenyi Shen, Junru Lu, Lin Gui, Jiazheng Li, Yulan He, Di Yin, Xing Sun,
- Abstract要約: SSA(スパース・スパース・アテンション)は,スパースとフルアテンションの両方を考慮した統合トレーニングフレームワークである。
SSAは、スパースとフルアテンション推論の両方の下で最先端のパフォーマンスを達成する。
本研究では,流し地における注意値の過度な配置を緩和することにより,自然的スパースアテンショントレーニングが長時間の文脈を驚くほど改善することを示す。
- 参考スコア(独自算出の注目度): 31.792742191540356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of full attention limits efficient long-context processing in large language models (LLMs). Sparse attention mitigates this cost by restricting each query to attend to a subset of previous tokens; however, training-free approaches often lead to severe performance degradation. Native sparse-attention methods (e.g., NSA, MoBA) alleviate this issue, yet exhibit a critical paradox: they produce lower attention sparsity than full-attention models, despite aiming to approximate full attention, which may constrain their effectiveness. We attribute this paradox to gradient update deficiency: low-ranked key-value pairs excluded during sparse training receive neither forward contribution nor backward gradients, and thus never learn proper suppression. To overcome this limitation, we propose SSA (Sparse Sparse Attention), a unified training framework that considers both sparse and full attention and enforces bidirectional alignment at every layer. This design preserves gradient flow to all tokens while explicitly encouraging sparse-attention outputs to align with their full-attention counterparts, thereby promoting stronger sparsity. As a result, SSA achieves state-of-the-art performance under both sparse and full attention inference across multiple commonsense benchmarks. Furthermore, SSA enables models to adapt smoothly to varying sparsity budgets; performance improves consistently as more tokens are allowed to attend, supporting flexible compute-performance trade-offs at inference time. Finally, we show that native sparse-attention training surprisingly improves long-context extrapolation by mitigating the over-allocation of attention values in sink areas, with SSA demonstrating the strongest extrapolation capability.
- Abstract(参考訳): フルアテンションの二次的複雑性は、大規模言語モデル(LLM)における効率的な長文処理を制限する。
スパースアテンションは、前のトークンのサブセットに対応するクエリを制限することによって、このコストを軽減します。
ネイティブのスパースアテンション手法(NSA、MoBAなど)はこの問題を緩和するが、重要なパラドックスを呈している。
スパーストレーニング中に除外された低ランクのキー値ペアは、前向きのコントリビューションも後向きのグラデーションも受けないため、適切な抑制を学ばない。
この制限を克服するために、スパースとフルアテンションの両方を考慮し、各層に双方向アライメントを強制する統合トレーニングフレームワークであるSSA(Sparse Sparse Attention)を提案する。
この設計は、すべてのトークンへの勾配の流れを保ちつつ、スパースアテンション出力を、フルアテンション出力と整合するように明示的に奨励し、より強いスパーシティを促進する。
その結果、SSAは複数のコモンセンスベンチマークにおいて、スパースとフルアテンション推論の両方の下で最先端のパフォーマンスを達成する。
さらに、SSAはモデルが様々な幅の予算にスムーズに適応できるようにし、より多くのトークンが参加できるようにパフォーマンスを一貫して改善し、推論時にフレキシブルな計算性能トレードオフをサポートする。
最後に,シンク領域における注目値の過剰配置を軽減し,SSAが最強の補間能力を示すことにより,ネイティブスパース・アテンショントレーニングが,長期文脈の補間を驚くほど改善することを示す。
関連論文リスト
- FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference [3.9464481148889354]
我々は,グローバルな視点からトークンプルーニングにアプローチする,トレーニングフリーのプラグアンドプレイフレームワークSTAR(Stage-wise Attention-guided token Reduction)を提案する。
単一ポイントでプルーニングする代わりに、STARは視覚的自己注意に基づく早期プルーニングで冗長な低レベル特徴を除去し、タスク非関連トークンを捨てるために、クロスモーダルな注意でガイドされる後期プルーニングという2つの相補的な段階において注意誘導還元を行う。
論文 参考訳(メタデータ) (2025-05-18T10:44:45Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Flip Learning: Erase to Segment [65.84901344260277]
弱い教師付きセグメンテーション(WSS)は、時間と面倒な手作業のアノテーションを減らすのに役立ちます。
ボックスアノテーションのみを必要とするFlip Learningという,斬新で汎用的なWSSフレームワークを提案する。
提案手法は,完全教師付き学習と弱教師付き学習のギャップを狭める大きな可能性を示す。
論文 参考訳(メタデータ) (2021-08-02T09:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。