Fugu-MT 論文翻訳(概要): Rethinking Softmax: Self-Attention with Polynomial Activations

論文の概要: Rethinking Softmax: Self-Attention with Polynomial Activations

arxiv url: http://arxiv.org/abs/2410.18613v1
Date: Thu, 24 Oct 2024 10:08:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.858271
Title: Rethinking Softmax: Self-Attention with Polynomial Activations
Title（参考訳）: ソフトマックスを再考する: 多項式活性化による自己注意
Authors: Hemanth Saratchandran, Jianqiao Zheng, Yiping Ji, Wenbo Zhang, Simon Lucey,
Abstract要約: 変圧器におけるソフトマックスアテンションは、トレーニング中に注意行列のフロベニウスノルムを暗黙的に正則化できることを示す。次に、アテンション行列のフロベニウスノルムを正規化する代替アクティベーションを検討し、アテンションベースのアーキテクチャに適合する。
参考スコア（独自算出の注目度）: 25.162734407461905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper challenges the conventional belief that softmax attention in transformers is effective primarily because it generates a probability distribution for attention allocation. Instead, we theoretically show that its success lies in its ability to implicitly regularize the Frobenius norm of the attention matrix during training. We then explore alternative activations that regularize the Frobenius norm of the attention matrix, demonstrating that certain polynomial activations can achieve this effect, making them suitable for attention-based architectures. Empirical results indicate these activations perform comparably or better than softmax across various computer vision and language tasks, suggesting new possibilities for attention mechanisms beyond softmax.
Abstract（参考訳）: 本稿では,変圧器におけるソフトマックスアテンションは,アテンションアロケーションの確率分布を生成するために有効である,という従来の信念に異議を唱える。その代わりに、理論上、その成功は、訓練中に注意行列のフロベニウスノルムを暗黙的に正則化する能力にあることを示す。次に、注意行列のフロベニウスノルムを正則化する別のアクティベーションを検討し、ある多項式のアクティベーションがこの効果を達成できることを示す。実験の結果、これらのアクティベーションは様々なコンピュータビジョンや言語タスクにおいてソフトマックスよりも多種多種多種多種多様であり、ソフトマックスを超える注意機構の新たな可能性を示している。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文参考訳（メタデータ） (2025-02-25T15:07:40Z)
Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文参考訳（メタデータ） (2025-02-01T02:36:14Z)
Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文参考訳（メタデータ） (2024-12-09T15:44:22Z)
Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。極端トーケン現象のメカニズムを解明する。
論文参考訳（メタデータ） (2024-10-17T17:54:06Z)
Beyond Linear Approximations: A Novel Pruning Approach for Attention Matrix [17.086679273053853]
大きな言語モデル(LLM)は、私たちの日常生活の様々な側面を強化する大きな可能性を示しています。彼らの成長する能力は、非常に大きなモデルサイズを犠牲にし、エッジデバイスへのデプロイメントを困難にしている。本稿では,注目行列の近似を直接最適化する LLM 重み付け手法を提案する。
論文参考訳（メタデータ） (2024-10-15T04:35:56Z)
softmax is not enough (for sharp out-of-distribution) [16.167142726585357]
ソフトマックス関数は、現代のAIシステムにおけるシャープな振る舞いのキーキャリアである。最大キーを見つけるのと同じくらい簡単なタスクの場合、学習した回路はテスト時にアイテムの数が増加するにつれて分散しなければならない。推定時間におけるソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。
論文参考訳（メタデータ） (2024-10-01T22:22:35Z)
Exploring the Frontiers of Softmax: Provable Optimization, Applications in Diffusion Model, and Beyond [32.734716767055836]
本稿では、2層ソフトマックスニューラルネットワークの最適化と一般化特性について理論的研究を行う。オーバーパラメトリゼーション方式では,ソフトマックスニューラルネットワークが対象関数を学習できることが示されている。私たちの仕事は、自然言語処理などにおけるさらなる進歩の道を開くものです。
論文参考訳（メタデータ） (2024-05-06T08:15:29Z)
Linear Log-Normal Attention with Unbiased Concentration [3.034257650900382]
本研究では,注意行列の分布と集中度を解析し,自己注意機構について検討した。本稿では,これらの量を計測し,新たな自己注意機構である線形ログNormal Attentionを提案する。ポピュラーな自然言語ベンチマークの実験結果から,提案した線形ログNormal Attentionは,他の線形化アテンションよりも優れていたことが判明した。
論文参考訳（メタデータ） (2023-11-22T17:30:41Z)
Superiority of Softmax: Unveiling the Performance Edge Over Linear Attention [28.98187418889448]
大規模なトランスモデルは、多くの自然言語処理タスクにおいて最先端の結果を得た。注意機構は、ソフトマックス関数の利用を通じて、シーケンス内のトークン相互作用を捕捉する上で重要な役割を果たす。リニアアテンションは、線形複雑性でソフトマックス演算を近似することで、より計算的に効率的な代替手段を示す。
論文参考訳（メタデータ） (2023-10-18T03:17:57Z)
The Inhibitor: ReLU and Addition-Based Attention for Efficient Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文参考訳（メタデータ） (2023-10-03T13:34:21Z)
Convex Bounds on the Softmax Function with Applications to Robustness Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文参考訳（メタデータ） (2023-03-03T05:07:02Z)
Unitary Approximate Message Passing for Matrix Factorization [90.84906091118084]
行列分解 (MF) を一定の制約で考慮し, 様々な分野の応用を見いだす。我々は,効率の良いメッセージパッシング実装であるUAMPMFを用いて,MFに対するベイズ的アプローチを開発する。 UAMPMFは、回復精度、ロバスト性、計算複雑性の観点から、最先端のアルゴリズムを著しく上回ることを示す。
論文参考訳（メタデータ） (2022-07-31T12:09:32Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文参考訳（メタデータ） (2022-05-05T05:44:26Z)
Learning Self-Modulating Attention in Continuous Time Space with Applications to Sequential Recommendation [102.24108167002252]
本稿では,複雑で非線形に進化する動的ユーザの嗜好をモデル化する,自己変調型注意ネットワークを提案する。提案手法がトップNシーケンシャルなレコメンデーションタスクに与える影響を実証的に示すとともに,3つの大規模実世界のデータセットによる結果から,我々のモデルが最先端のパフォーマンスを達成できることを示す。
論文参考訳（メタデータ） (2022-03-30T03:54:11Z)
Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in Attention Mechanism [8.007523868483085]
ソフトマックスは、マルチクラス分類、ゲート構造、アテンションメカニズムのためのニューラルネットワークで広く使われている。本研究では,指数関数を周期関数で置き換えることを提案する。本手法は, 勾配問題を緩和し, ソフトマックスとその変種と比較して大幅に改善できることが証明された。
論文参考訳（メタデータ） (2021-08-16T15:26:31Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。