論文の概要: Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention
- arxiv url: http://arxiv.org/abs/2310.11685v1
- Date: Wed, 18 Oct 2023 03:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:57:31.596906
- Title: Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention
- Title(参考訳): softmaxの優位性:線形注意によるパフォーマンスエッジの顕在化
- Authors: Yichuan Deng, Zhao Song, Tianyi Zhou
- Abstract要約: 大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
- 参考スコア(独自算出の注目度): 28.98187418889448
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large transformer models have achieved state-of-the-art results in numerous
natural language processing tasks. Among the pivotal components of the
transformer architecture, the attention mechanism plays a crucial role in
capturing token interactions within sequences through the utilization of
softmax function.
Conversely, linear attention presents a more computationally efficient
alternative by approximating the softmax operation with linear complexity.
However, it exhibits substantial performance degradation when compared to the
traditional softmax attention mechanism.
In this paper, we bridge the gap in our theoretical understanding of the
reasons behind the practical performance gap between softmax and linear
attention. By conducting a comprehensive comparative analysis of these two
attention mechanisms, we shed light on the underlying reasons for why softmax
attention outperforms linear attention in most scenarios.
- Abstract(参考訳): 大規模なトランスフォーマーモデルは、多くの自然言語処理タスクで最先端の成果を達成している。
トランスアーキテクチャの重要な構成要素のうち、アテンション機構はソフトマックス関数の利用を通じてシーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
逆に、線形注意は、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
しかし,従来のソフトマックスアテンション機構に比べて性能が著しく低下する。
本稿では,ソフトマックスと線形注意の実用的性能差の背後にある理由に関する理論的理解のギャップを橋渡しする。
これら2つの注意機構の包括的比較分析を行い,ソフトマックス注意がリニア注意よりも優れている理由について考察した。
関連論文リスト
- Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。
本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。
我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Rethinking Softmax: Self-Attention with Polynomial Activations [25.162734407461905]
変圧器におけるソフトマックスアテンションは、トレーニング中に注意行列のフロベニウスノルムを暗黙的に正則化できることを示す。
次に、アテンション行列のフロベニウスノルムを正規化する代替アクティベーションを検討し、アテンションベースのアーキテクチャに適合する。
論文 参考訳(メタデータ) (2024-10-24T10:08:25Z) - Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。
彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。
本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T04:35:56Z) - Superiority of Multi-Head Attention in In-Context Linear Regression [39.469021333473435]
精度の高い埋め込み次元を持つマルチヘッドアテンションは、シングルヘッドアテンションよりも優れていることを示すために、正確な理論的解析を行う。
一般に、シングルヘッドの注意よりもマルチヘッドの注意が好ましい。
論文 参考訳(メタデータ) (2024-01-30T20:29:06Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。