論文の概要: Rethinking Softmax: Self-Attention with Polynomial Activations
- arxiv url: http://arxiv.org/abs/2410.18613v1
- Date: Thu, 24 Oct 2024 10:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:47.473882
- Title: Rethinking Softmax: Self-Attention with Polynomial Activations
- Title(参考訳): ソフトマックスを再考する: 多項式活性化による自己注意
- Authors: Hemanth Saratchandran, Jianqiao Zheng, Yiping Ji, Wenbo Zhang, Simon Lucey,
- Abstract要約: 変圧器におけるソフトマックスアテンションは、トレーニング中に注意行列のフロベニウスノルムを暗黙的に正則化できることを示す。
次に、アテンション行列のフロベニウスノルムを正規化する代替アクティベーションを検討し、アテンションベースのアーキテクチャに適合する。
- 参考スコア(独自算出の注目度): 25.162734407461905
- License:
- Abstract: This paper challenges the conventional belief that softmax attention in transformers is effective primarily because it generates a probability distribution for attention allocation. Instead, we theoretically show that its success lies in its ability to implicitly regularize the Frobenius norm of the attention matrix during training. We then explore alternative activations that regularize the Frobenius norm of the attention matrix, demonstrating that certain polynomial activations can achieve this effect, making them suitable for attention-based architectures. Empirical results indicate these activations perform comparably or better than softmax across various computer vision and language tasks, suggesting new possibilities for attention mechanisms beyond softmax.
- Abstract(参考訳): 本稿では,変圧器におけるソフトマックスアテンションは,アテンションアロケーションの確率分布を生成するために有効である,という従来の信念に異議を唱える。
その代わりに、理論上、その成功は、訓練中に注意行列のフロベニウスノルムを暗黙的に正則化する能力にあることを示す。
次に、注意行列のフロベニウスノルムを正則化する別のアクティベーションを検討し、ある多項式のアクティベーションがこの効果を達成できることを示す。
実験の結果、これらのアクティベーションは様々なコンピュータビジョンや言語タスクにおいてソフトマックスよりも多種多種多種多種多様であり、ソフトマックスを超える注意機構の新たな可能性を示している。
関連論文リスト
- Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。
彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。
本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T04:35:56Z) - softmax is not enough (for sharp out-of-distribution) [16.167142726585357]
ソフトマックス関数は、現代のAIシステムにおけるシャープな振る舞いのキーキャリアである。
最大キーを見つけるのと同じくらい簡単なタスクの場合、学習した回路はテスト時にアイテムの数が増加するにつれて分散しなければならない。
推定時間におけるソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。
論文 参考訳(メタデータ) (2024-10-01T22:22:35Z) - Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond [32.734716767055836]
本稿では、2層ソフトマックスニューラルネットワークの最適化と一般化特性について理論的研究を行う。
オーバーパラメトリゼーション方式では,ソフトマックスニューラルネットワークが対象関数を学習できることが示されている。
私たちの仕事は、自然言語処理などにおけるさらなる進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-05-06T08:15:29Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文 参考訳(メタデータ) (2023-10-18T03:17:57Z) - Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。
我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。
UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-07-31T12:09:32Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。