論文の概要: Rethinking Softmax: Self-Attention with Polynomial Activations
- arxiv url: http://arxiv.org/abs/2410.18613v1
- Date: Thu, 24 Oct 2024 10:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:47.473882
- Title: Rethinking Softmax: Self-Attention with Polynomial Activations
- Title(参考訳): ソフトマックスを再考する: 多項式活性化による自己注意
- Authors: Hemanth Saratchandran, Jianqiao Zheng, Yiping Ji, Wenbo Zhang, Simon Lucey,
- Abstract要約: 変圧器におけるソフトマックスアテンションは、トレーニング中に注意行列のフロベニウスノルムを暗黙的に正則化できることを示す。
次に、アテンション行列のフロベニウスノルムを正規化する代替アクティベーションを検討し、アテンションベースのアーキテクチャに適合する。
- 参考スコア(独自算出の注目度): 25.162734407461905
- License:
- Abstract: This paper challenges the conventional belief that softmax attention in transformers is effective primarily because it generates a probability distribution for attention allocation. Instead, we theoretically show that its success lies in its ability to implicitly regularize the Frobenius norm of the attention matrix during training. We then explore alternative activations that regularize the Frobenius norm of the attention matrix, demonstrating that certain polynomial activations can achieve this effect, making them suitable for attention-based architectures. Empirical results indicate these activations perform comparably or better than softmax across various computer vision and language tasks, suggesting new possibilities for attention mechanisms beyond softmax.
- Abstract(参考訳): 本稿では,変圧器におけるソフトマックスアテンションは,アテンションアロケーションの確率分布を生成するために有効である,という従来の信念に異議を唱える。
その代わりに、理論上、その成功は、訓練中に注意行列のフロベニウスノルムを暗黙的に正則化する能力にあることを示す。
次に、注意行列のフロベニウスノルムを正則化する別のアクティベーションを検討し、ある多項式のアクティベーションがこの効果を達成できることを示す。
実験の結果、これらのアクティベーションは様々なコンピュータビジョンや言語タスクにおいてソフトマックスよりも多種多種多種多種多様であり、ソフトマックスを超える注意機構の新たな可能性を示している。
関連論文リスト
- Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - softmax is not enough (for sharp out-of-distribution) [16.167142726585357]
ソフトマックス関数は、現代のAIシステムにおけるシャープな振る舞いのキーキャリアである。
最大キーを見つけるのと同じくらい簡単なタスクの場合、学習した回路はテスト時にアイテムの数が増加するにつれて分散しなければならない。
推定時間におけるソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。
論文 参考訳(メタデータ) (2024-10-01T22:22:35Z) - Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond [32.734716767055836]
本稿では、2層ソフトマックスニューラルネットワークの最適化と一般化特性について理論的研究を行う。
オーバーパラメトリゼーション方式では,ソフトマックスニューラルネットワークが対象関数を学習できることが示されている。
私たちの仕事は、自然言語処理などにおけるさらなる進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-05-06T08:15:29Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文 参考訳(メタデータ) (2023-10-18T03:17:57Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。