論文の概要: Rethinking Attention: Polynomial Alternatives to Softmax in Transformers
- arxiv url: http://arxiv.org/abs/2410.18613v2
- Date: Mon, 19 May 2025 08:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.286848
- Title: Rethinking Attention: Polynomial Alternatives to Softmax in Transformers
- Title(参考訳): 留意点の再考:変圧器のソフトマックスに対する多項式代替
- Authors: Hemanth Saratchandran, Jianqiao Zheng, Yiping Ji, Wenbo Zhang, Simon Lucey,
- Abstract要約: 我々は、ソフトマックスの有効性は注意行列のフロベニウスノルムの暗黙の正則化にあると主張する。
我々の理論的分析は、ある置換体がソフトマックスの効果的な置換体として機能できることを示している。
- 参考スコア(独自算出の注目度): 25.162734407461905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper questions whether the strong performance of softmax attention in transformers stems from producing a probability distribution over inputs. Instead, we argue that softmax's effectiveness lies in its implicit regularization of the Frobenius norm of the attention matrix, which stabilizes training. Motivated by this, we explore alternative activations, specifically polynomials, that achieve a similar regularization effect. Our theoretical analysis shows that certain polynomials can serve as effective substitutes for softmax, achieving strong performance across transformer applications despite violating softmax's typical properties of positivity, normalization, and sparsity. Extensive experiments support these findings, offering a new perspective on attention mechanisms.
- Abstract(参考訳): 本稿では,トランスにおけるソフトマックスアテンションの強い性能が,入力に対する確率分布の生成に起因しているかどうかを問う。
代わりに、ソフトマックスの有効性は、訓練を安定化させる注意行列のフロベニウスノルムの暗黙の正則化にあると主張する。
これを動機として、同様の正則化効果を達成する代替活性化、特に多項式を探索する。
我々の理論解析は, ソフトマックスの正則性, 正規化, スパーシティの典型的な性質に反するにも拘わらず, 変圧器応用における高い性能を達成し, ソフトマックスの効果的な代用として機能することが示唆された。
大規模な実験はこれらの発見を支持し、注意機構の新しい視点を提供する。
関連論文リスト
- Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。
彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。
本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T04:35:56Z) - softmax is not enough (for sharp out-of-distribution) [16.167142726585357]
ソフトマックス関数は、現代のAIシステムにおけるシャープな振る舞いのキーキャリアである。
最大キーを見つけるのと同じくらい簡単なタスクの場合、学習した回路はテスト時にアイテムの数が増加するにつれて分散しなければならない。
推定時間におけるソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。
論文 参考訳(メタデータ) (2024-10-01T22:22:35Z) - Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond [32.734716767055836]
本稿では、2層ソフトマックスニューラルネットワークの最適化と一般化特性について理論的研究を行う。
オーバーパラメトリゼーション方式では,ソフトマックスニューラルネットワークが対象関数を学習できることが示されている。
私たちの仕事は、自然言語処理などにおけるさらなる進歩の道を開くものです。
論文 参考訳(メタデータ) (2024-05-06T08:15:29Z) - Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。
本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。
ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2023-11-22T17:30:41Z) - Superiority of Softmax: Unveiling the Performance Edge Over Linear
Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。
注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。
リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文 参考訳(メタデータ) (2023-10-18T03:17:57Z) - Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。
我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。
UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-07-31T12:09:32Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Learning Self-Modulating Attention in Continuous Time Space with
Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。
提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2022-03-30T03:54:11Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。