論文の概要: Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective
- arxiv url: http://arxiv.org/abs/2502.00281v1
- Date: Sat, 01 Feb 2025 02:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:11.386786
- Title: Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective
- Title(参考訳): Sigmoid Self-AttentionはSoftmax Self-Attentionより優れている:Mixture-of-Experts
- Authors: Fanqi Yan, Huy Nguyen, Pedram Akbarian, Nhat Ho, Alessandro Rinaldo,
- Abstract要約: 本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
- 参考スコア(独自算出の注目度): 69.72942835553228
- License:
- Abstract: At the core of the popular Transformer architecture is the self-attention mechanism, which dynamically assigns softmax weights to each input token so that the model can focus on the most salient information. However, the softmax structure slows down the attention computation due to its row-wise nature, and inherently introduces competition among tokens: as the weight assigned to one token increases, the weights of others decrease. This competitive dynamic may narrow the focus of self-attention to a limited set of features, potentially overlooking other informative characteristics. Recent experimental studies have shown that using the element-wise sigmoid function helps eliminate token competition and reduce the computational overhead. Despite these promising empirical results, a rigorous comparison between sigmoid and softmax self-attention mechanisms remains absent in the literature. This paper closes this gap by theoretically demonstrating that sigmoid self-attention is more sample-efficient than its softmax counterpart. Toward that goal, we illustrate that each row of the self-attention matrix can be represented as a mixture of experts. Our analysis shows that ''experts'' in sigmoid self-attention require significantly less data to achieve the same approximation error as those in softmax self-attention. We corroborate our theoretical findings through extensive experiments on both synthetic and real-world datasets.
- Abstract(参考訳): 一般的なTransformerアーキテクチャの中核は自己保持機構であり、各入力トークンにソフトマックス重みを動的に割り当て、モデルが最も健全な情報に集中できるようにしている。
しかし、ソフトマックス構造は行ワイズの性質による注意計算を遅くし、本質的にトークン間の競合を生じさせ、あるトークンに割り当てられた重みが増加するにつれて、他のトークンの重みは減少する。
この競争力のダイナミクスは、自己注意の焦点を限られた特徴に絞り込み、他の情報的特徴を見落としてしまう可能性がある。
近年の研究では、要素ワイドシグモイド関数を用いることでトークン競合を排除し、計算オーバーヘッドを低減することが示されている。
これらの有望な実証結果にもかかわらず、シグモイドとソフトマックス自己保持機構の厳密な比較は文献に残っていない。
本稿では,シグモイド自己アテンションがソフトマックスよりも試料効率が高いことを理論的に証明することによって,このギャップを埋める。
その目標に向かって、自己注意行列の各行が専門家の混合として表現できることを示す。
本分析から,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることが示された。
我々は、合成と実世界の両方のデータセットに関する広範な実験を通じて、理論的な知見を裏付ける。
関連論文リスト
- Softplus Attention with Re-weighting Boosts Length Extrapolation in Large Language Models [7.80071686970278]
従来のSoftmaxの注意は、推論トークンの長さが増加するにつれて、数値的な不安定さと性能の低下に悩まされる。
本稿では,Softmax演算を非線形変換と$l_1$-normに分解することで,これらの問題に対処する。
我々は,従来のSoftmaxのアテンションよりも優れた性能を持つ新しいアテンション機構を,様々な推論長さにわたって構築する。
論文 参考訳(メタデータ) (2025-01-23T07:21:08Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Rethinking Softmax: Self-Attention with Polynomial Activations [25.162734407461905]
変圧器におけるソフトマックスアテンションは、トレーニング中に注意行列のフロベニウスノルムを暗黙的に正則化できることを示す。
次に、アテンション行列のフロベニウスノルムを正規化する代替アクティベーションを検討し、アテンションベースのアーキテクチャに適合する。
論文 参考訳(メタデータ) (2024-10-24T10:08:25Z) - Theory, Analysis, and Best Practices for Sigmoid Self-Attention [16.73166377436999]
我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。
我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。
ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
論文 参考訳(メタデータ) (2024-09-06T17:53:26Z) - Sigmoid Gating is More Sample Efficient than Softmax Gating in Mixture of Experts [78.3687645289918]
我々は,シグモイドゲーティング関数が,専門家推定の統計的タスクにおいて,ソフトマックスゲーティングよりも高いサンプル効率を享受できることを示した。
ReLU や GELU のようなよく使われる活性化型フィードフォワードネットワークとして定式化された専門家は,シグモイドゲーティングの下でより速い収束率を享受できる。
論文 参考訳(メタデータ) (2024-05-22T21:12:34Z) - Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文 参考訳(メタデータ) (2023-10-18T03:17:57Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。