論文の概要: Softmax Linear Attention: Reclaiming Global Competition
- arxiv url: http://arxiv.org/abs/2602.01744v1
- Date: Mon, 02 Feb 2026 07:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.976152
- Title: Softmax Linear Attention: Reclaiming Global Competition
- Title(参考訳): Softmax Linear Attention: グローバルコンペティションの復活
- Authors: Mingwei Xu, Xuan Lin, Xinnan Guo, Wanqing Xu, Wanyun Cui,
- Abstract要約: 効率を犠牲にすることなく競合選択を回復するフレームワークであるtextbfSoftmax Linear Attention (SLA) を提案する。
実験では、SLAは言語モデリングと長期コンテキストベンチマークをまたいだ最先端の線形ベースラインを一貫して強化することを示した。
- 参考スコア(独自算出の注目度): 28.81301173774774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While linear attention reduces the quadratic complexity of standard Transformers to linear time, it often lags behind in expressivity due to the removal of softmax normalization. This omission eliminates \emph{global competition}, a critical mechanism that enables models to sharply focus on relevant information amidst long-context noise. In this work, we propose \textbf{Softmax Linear Attention (SLA)}, a framework designed to restore this competitive selection without sacrificing efficiency. By lifting the softmax operation from the token level to the head level, SLA leverages attention heads as coarse semantic slots, applying a competitive gating mechanism to dynamically select the most relevant subspaces. This reintroduces the ``winner-take-all'' dynamics essential for precise retrieval and robust long-context understanding. Distinct from prior methods that focus on refining local kernel functions, SLA adopts a broader perspective by exploiting the higher-level multi-head aggregation structure. Extensive experiments demonstrate that SLA consistently enhances state-of-the-art linear baselines (RetNet, GLA, GDN) across language modeling and long-context benchmarks, particularly in challenging retrieval scenarios where it significantly boosts robustness against noise, validating its capability to restore precise focus while maintaining linear complexity.
- Abstract(参考訳): リニアアテンションは標準変圧器の二次的な複雑さを線形時間に還元するが、ソフトマックス正規化の除去により表現性が遅れることがしばしばある。
この省略により、長文ノイズの中でモデルが関連情報に鋭くフォーカスできる重要なメカニズムである「emph{global competition}」が排除される。
本研究では,この競争的選択を効率を犠牲にすることなく復元するフレームワークであるtextbf{Softmax Linear Attention (SLA)を提案する。
トークンレベルからヘッドレベルへのソフトマックス操作を持ち上げることで、SLAは注意ヘッドを粗いセマンティックスロットとして活用し、最も関連するサブスペースを動的に選択するための競合ゲーティング機構を適用します。
これにより、精度の高い検索と堅牢な長文理解に不可欠な'winner-take-all'のダイナミクスを再導入する。
ローカルカーネル関数の精細化に重点を置く従来の手法とは違い、SLAは高レベルなマルチヘッドアグリゲーション構造を利用することで、より広い視点を採用する。
広範囲にわたる実験により、SLAは言語モデリングや長いコンテキストのベンチマークを通じて、最先端の線形ベースライン(RetNet、GLA、GDN)を一貫して強化することを示した。
関連論文リスト
- SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention [50.99430451151184]
線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。
本稿では,視覚表現学習における線形およびソフトマックスの注意を対比する分析的研究について述べる。
フレキシブルな層状ハイブリッドアテンションバックボーンであるSoLA-Visionを提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:53Z) - Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models [0.0]
マルチスケール集約階層的注意(MAHA)は、階層的分解と数学的に厳密な集約を通じて注意機構を再構築する新しいアーキテクチャフレームワークである。
MAHAは、入力シーケンスを学習可能なダウンサンプリング演算子を介して階層スケールに動的に分割する。
実験的なFLOP解析により,4096のシークエンス長で計算コストが81%削減されたことが確認された。
論文 参考訳(メタデータ) (2025-12-16T21:27:21Z) - Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective [16.076157672455867]
有限プロンプトと無限プロンプトの両方の下で単層ソフトマックスアテンションを研究するための測度に基づくフレームワークを開発する。
すなわち、ガウスの入力に対しては、ソフトマックス作用素が無限プロンプト極限に収束し、基底となる入力-token測度に作用する線型作用素に収束するという事実に頼っている。
論文 参考訳(メタデータ) (2025-12-12T18:54:52Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。