論文の概要: Softmax Linear Attention: Reclaiming Global Competition
- arxiv url: http://arxiv.org/abs/2602.01744v1
- Date: Mon, 02 Feb 2026 07:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.976152
- Title: Softmax Linear Attention: Reclaiming Global Competition
- Title(参考訳): Softmax Linear Attention: グローバルコンペティションの復活
- Authors: Mingwei Xu, Xuan Lin, Xinnan Guo, Wanqing Xu, Wanyun Cui,
- Abstract要約: 効率を犠牲にすることなく競合選択を回復するフレームワークであるtextbfSoftmax Linear Attention (SLA) を提案する。
実験では、SLAは言語モデリングと長期コンテキストベンチマークをまたいだ最先端の線形ベースラインを一貫して強化することを示した。
- 参考スコア(独自算出の注目度): 28.81301173774774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While linear attention reduces the quadratic complexity of standard Transformers to linear time, it often lags behind in expressivity due to the removal of softmax normalization. This omission eliminates \emph{global competition}, a critical mechanism that enables models to sharply focus on relevant information amidst long-context noise. In this work, we propose \textbf{Softmax Linear Attention (SLA)}, a framework designed to restore this competitive selection without sacrificing efficiency. By lifting the softmax operation from the token level to the head level, SLA leverages attention heads as coarse semantic slots, applying a competitive gating mechanism to dynamically select the most relevant subspaces. This reintroduces the ``winner-take-all'' dynamics essential for precise retrieval and robust long-context understanding. Distinct from prior methods that focus on refining local kernel functions, SLA adopts a broader perspective by exploiting the higher-level multi-head aggregation structure. Extensive experiments demonstrate that SLA consistently enhances state-of-the-art linear baselines (RetNet, GLA, GDN) across language modeling and long-context benchmarks, particularly in challenging retrieval scenarios where it significantly boosts robustness against noise, validating its capability to restore precise focus while maintaining linear complexity.
- Abstract(参考訳): リニアアテンションは標準変圧器の二次的な複雑さを線形時間に還元するが、ソフトマックス正規化の除去により表現性が遅れることがしばしばある。
この省略により、長文ノイズの中でモデルが関連情報に鋭くフォーカスできる重要なメカニズムである「emph{global competition}」が排除される。
本研究では,この競争的選択を効率を犠牲にすることなく復元するフレームワークであるtextbf{Softmax Linear Attention (SLA)を提案する。
トークンレベルからヘッドレベルへのソフトマックス操作を持ち上げることで、SLAは注意ヘッドを粗いセマンティックスロットとして活用し、最も関連するサブスペースを動的に選択するための競合ゲーティング機構を適用します。
これにより、精度の高い検索と堅牢な長文理解に不可欠な'winner-take-all'のダイナミクスを再導入する。
ローカルカーネル関数の精細化に重点を置く従来の手法とは違い、SLAは高レベルなマルチヘッドアグリゲーション構造を利用することで、より広い視点を採用する。
広範囲にわたる実験により、SLAは言語モデリングや長いコンテキストのベンチマークを通じて、最先端の線形ベースライン(RetNet、GLA、GDN)を一貫して強化することを示した。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs [23.745366354566315]
LLM(Linearizing Pretrained Large Language Model)は主に層内ハイブリッドアテンション機構に依存している。
LLMを効率的に線形化するための層内ハイブリッド線形化フレームワークSTILLを提案する。
論文 参考訳(メタデータ) (2026-02-02T14:49:18Z) - SoLA-Vision: Fine-grained Layer-wise Linear Softmax Hybrid Attention [50.99430451151184]
線形注意はコストをO(N)に還元するが、圧縮された状態表現はモデリング能力と精度を損なう。
本稿では,視覚表現学習における線形およびソフトマックスの注意を対比する分析的研究について述べる。
フレキシブルな層状ハイブリッドアテンションバックボーンであるSoLA-Visionを提案する。
論文 参考訳(メタデータ) (2026-01-16T10:26:53Z) - Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - Multiscale Aggregated Hierarchical Attention (MAHA): A Game Theoretic and Optimization Driven Approach to Efficient Contextual Modeling in Large Language Models [0.0]
マルチスケール集約階層的注意(MAHA)は、階層的分解と数学的に厳密な集約を通じて注意機構を再構築する新しいアーキテクチャフレームワークである。
MAHAは、入力シーケンスを学習可能なダウンサンプリング演算子を介して階層スケールに動的に分割する。
実験的なFLOP解析により,4096のシークエンス長で計算コストが81%削減されたことが確認された。
論文 参考訳(メタデータ) (2025-12-16T21:27:21Z) - Softmax as Linear Attention in the Large-Prompt Regime: a Measure-based Perspective [16.076157672455867]
有限プロンプトと無限プロンプトの両方の下で単層ソフトマックスアテンションを研究するための測度に基づくフレームワークを開発する。
すなわち、ガウスの入力に対しては、ソフトマックス作用素が無限プロンプト極限に収束し、基底となる入力-token測度に作用する線型作用素に収束するという事実に頼っている。
論文 参考訳(メタデータ) (2025-12-12T18:54:52Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。