論文の概要: ZeroS: Zero-Sum Linear Attention for Efficient Transformers
- arxiv url: http://arxiv.org/abs/2602.05230v1
- Date: Thu, 05 Feb 2026 02:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.728463
- Title: ZeroS: Zero-Sum Linear Attention for Efficient Transformers
- Title(参考訳): ZeroS: 効率的な変換器のためのゼロサム線形アテンション
- Authors: Jiecheng Lu, Xu Han, Yan Sun, Viresh Pati, Yubin Kim, Siddhartha Somani, Shihao Yang,
- Abstract要約: 線形アテンション法はトランスフォーマーに$O(N)$複雑さを提供するが、通常は標準ソフトマックスアテンションよりも性能が低い。
我々はゼロサム線形注意(ZeroS)を提案し、これは定数ゼロオーダー項の1/t$を除去し、残りのゼロサムソフトマックス残基を再重み付けする。
- 参考スコア(独自算出の注目度): 11.081379808857335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention methods offer Transformers $O(N)$ complexity but typically underperform standard softmax attention. We identify two fundamental limitations affecting these approaches: the restriction to convex combinations that only permits additive information blending, and uniform accumulated weight bias that dilutes attention in long contexts. We propose Zero-Sum Linear Attention (ZeroS), which addresses these limitations by removing the constant zero-order term $1/t$ and reweighting the remaining zero-sum softmax residuals. This modification creates mathematically stable weights, enabling both positive and negative values and allowing a single attention layer to perform contrastive operations. While maintaining $O(N)$ complexity, ZeroS theoretically expands the set of representable functions compared to convex combinations. Empirically, it matches or exceeds standard softmax attention across various sequence modeling benchmarks.
- Abstract(参考訳): 線形アテンション法はトランスフォーマーに$O(N)$複雑さを提供するが、通常は標準ソフトマックスアテンションよりも性能が低い。
これらのアプローチに影響を及ぼす2つの基本的な制限は、付加的な情報ブレンディングのみを許す凸結合の制限と、長い文脈で注意を希釈する一様蓄積重みバイアスである。
ゼロサム線形注意法 (ZeroS) を提案し, 一定のゼロオーダー項1/t$を除去し, 残余のゼロサムソフトマックス残基を再重み付けすることにより, これらの制約に対処する。
この修正によって数学的に安定な重みが生成され、正と負の両方の値が可能となり、単一の注意層が対照的な操作を実行できる。
O(N)$複雑性を維持しながら、ZeroS は凸結合よりも表現可能な関数の集合を理論的に拡張する。
経験的には、様々なシーケンス・モデリング・ベンチマークで標準的なソフトマックス・アテンションと一致するか超えている。
関連論文リスト
- Transformed $\ell_1$ Regularizations for Robust Principal Component Analysis: Toward a Fine-Grained Understanding [9.500372043252233]
本論文は, 異常な部分観測データから低ランク構造を復元することを目的としている。
従来のRPCAモデルは核ノルムや$ell_$ノルムのようなスパース凸緩和に依存している。
両近似を改善するために, $ell_$TL1 と呼ばれる非正規化法を提案する。
論文 参考訳(メタデータ) (2025-10-04T02:09:55Z) - Towards large-scale quantum optimization solvers with few qubits [59.63282173947468]
我々は、$m=mathcalO(nk)$バイナリ変数を$n$ qubitsだけを使って最適化するために、$k>1$で可変量子ソルバを導入する。
我々は,特定の量子ビット効率の符号化が,バレン高原の超ポリノミウム緩和を内蔵特徴としてもたらすことを解析的に証明した。
論文 参考訳(メタデータ) (2024-01-17T18:59:38Z) - Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity and Last-Iterate Convergence [18.1055795175092]
Zero-sum Linear Quadratic (LQ) ゲームは最適制御の基本である。
本研究では,より単純な入れ子ゼロ階法 (NPG) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-08T11:47:31Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Stochastic Zeroth order Descent with Structured Directions [10.604744518360464]
我々は, 有限差分法であるStructured Zeroth Order Descent (SSZD)を導入・解析し, 集合 $lleq d 方向の勾配を近似し, $d は周囲空間の次元である。
凸凸に対して、すべての$c1/2$に対して$O( (d/l) k-c1/2$)$ 上の関数の収束はほぼ確実に証明する。
論文 参考訳(メタデータ) (2022-06-10T14:00:06Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。