論文の概要: On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective
- arxiv url: http://arxiv.org/abs/2507.23632v1
- Date: Thu, 31 Jul 2025 15:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.016221
- Title: On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective
- Title(参考訳): ソフトマックス注意の表現性について:リカレントニューラルネットワークの視点から
- Authors: Gabriel Mongaras, Eric C. Larson,
- Abstract要約: ソフトマックス注意の主な欠点は、シーケンス長に関する二次記憶要件と計算複雑性である。
ソフトマックスの非線形性を置き換えることで、ソフトマックスの2次ボトルネックを回避するために、線形アテンションや同様の手法が導入された。
本研究は,線形アテンションがソフトマックスアテンションの繰り返し形式を導出することにより,ソフトマックスアテンションの近似であることを示す。
- 参考スコア(独自算出の注目度): 3.1044138971639743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since its introduction, softmax attention has become the backbone of modern transformer architectures due to its expressiveness and scalability across a wide range of tasks. However, the main drawback of softmax attention is the quadratic memory requirement and computational complexity with respect to the sequence length. By replacing the softmax nonlinearity, linear attention and similar methods have been introduced to avoid the quadratic bottleneck of softmax attention. Despite these linear forms of attention being derived from the original softmax formulation, they typically lag in terms of downstream accuracy. While strong intuition of the softmax nonlinearity on the query and key inner product suggests that it has desirable properties compared to other nonlinearities, the question of why this discrepancy exists still remains unanswered. This work demonstrates that linear attention is an approximation of softmax attention by deriving the recurrent form of softmax attention. Using this form, each part of softmax attention can be described in the language of recurrent neural networks (RNNs). Describing softmax attention as an RNN allows for the ablation of the components of softmax attention to understand the importance of each part and how they interact. In this way, our work helps explain why softmax attention is more expressive than its counterparts.
- Abstract(参考訳): 導入以来、ソフトマックスの注目は、様々なタスクにまたがる表現力とスケーラビリティのために、現代のトランスフォーマーアーキテクチャのバックボーンとなっている。
しかしながら、ソフトマックスの注意の主な欠点は、シーケンス長に関する二次記憶要件と計算複雑性である。
ソフトマックスの非線形性を置き換えることで、ソフトマックスの2次ボトルネックを回避するために、線形アテンションや同様の手法が導入された。
これらの線形的な注意形態は元々のソフトマックスの定式化に由来するが、一般的に下流の精度の点で遅延する。
問合せおよび鍵内積上のソフトマックス非線形性の強い直観は、他の非線形性と比較して望ましい性質を持っていることを示唆するが、なぜこの相違が存在するのかという疑問はいまだ未解決のままである。
本研究は,線形アテンションがソフトマックスアテンションの繰り返し形式を導出することにより,ソフトマックスアテンションの近似であることを示す。
この形式を用いて、ソフトマックスアテンションの各部分は、リカレントニューラルネットワーク(RNN)の言語で記述することができる。
RNNとしてソフトマックスアテンションを記述することで、ソフトマックスアテンションのコンポーネントをアブレーションすることで、各部分の重要性とそれらがどのように相互作用するかを理解することができる。
このようにして、我々の研究は、なぜソフトマックスの注意がそれよりも表現力が高いのかを説明するのに役立ちます。
関連論文リスト
- Rectifying Magnitude Neglect in Linear Attention [57.097694292570885]
リニアアテンションは、標準的なSoftmaxアテンションに比べて大幅にパフォーマンスが低下する。
我々は,線形注意の計算を改良し,クエリの規模を完全に組み込むMagnitude-Aware Linear Attention (MALA)を提案する。
論文 参考訳(メタデータ) (2025-07-01T11:49:05Z) - Long-Context Generalization with Sparse Attention [21.312711979288004]
トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
本稿では,$alpha$-entmax を用いて注意機構を疎結合にすることで,これらの問題を回避できることを示す。
論文 参考訳(メタデータ) (2025-06-19T22:43:25Z) - Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:07:40Z) - Scalable-Softmax Is Superior for Attention [0.0]
トランスフォーマーベースの言語モデルは、注意点を計算するためにSoftmaxに依存している。
SSMaxは入力ベクトルサイズが異なるシナリオでSoftmaxを置き換える。
SSMaxを用いたモデルは、事前訓練中に損失の削減を高速化するだけでなく、長期の文脈における性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-31T18:55:35Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文 参考訳(メタデータ) (2023-10-18T03:17:57Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。