論文の概要: Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in
Attention Mechanism
- arxiv url: http://arxiv.org/abs/2108.07153v1
- Date: Mon, 16 Aug 2021 15:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:22:07.897323
- Title: Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in
Attention Mechanism
- Title(参考訳): 勾配消失から逃れる : 注意機構におけるソフトマックスの周期的代替
- Authors: Shulun Wang, Bin Liu and Feng Liu
- Abstract要約: ソフトマックスは、マルチクラス分類、ゲート構造、アテンションメカニズムのためのニューラルネットワークで広く使われている。
本研究では,指数関数を周期関数で置き換えることを提案する。
本手法は, 勾配問題を緩和し, ソフトマックスとその変種と比較して大幅に改善できることが証明された。
- 参考スコア(独自算出の注目度): 8.007523868483085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Softmax is widely used in neural networks for multiclass classification, gate
structure and attention mechanisms. The statistical assumption that the input
is normal distributed supports the gradient stability of Softmax. However, when
used in attention mechanisms such as transformers, since the correlation scores
between embeddings are often not normally distributed, the gradient vanishing
problem appears, and we prove this point through experimental confirmation. In
this work, we suggest that replacing the exponential function by periodic
functions, and we delve into some potential periodic alternatives of Softmax
from the view of value and gradient. Through experiments on a simply designed
demo referenced to LeViT, our method is proved to be able to alleviate the
gradient problem and yield substantial improvements compared to Softmax and its
variants. Further, we analyze the impact of pre-normalization for Softmax and
our methods through mathematics and experiments. Lastly, we increase the depth
of the demo and prove the applicability of our method in deep structures.
- Abstract(参考訳): softmaxはニューラルネットワークで多クラス分類、ゲート構造、アテンション機構に広く使われている。
入力が正規分布であるという統計的仮定は、softmaxの勾配安定性を支持する。
しかし, 変圧器などの注意機構では, 組込み間の相関スコアが通常分布しないことが多いため, 勾配消失問題が現れ, 実験による検証によりこの点が証明される。
本研究では,指数関数を周期関数で置き換えることを提案し,値と勾配の観点からソフトマックスの潜在的な周期的代替品を探索する。
LeViTに言及した簡易なデモ実験により,本手法は勾配問題を緩和し,Softmaxとその変種と比較して大幅に改善できることが証明された。
さらに,ソフトマックスのプレ正規化の影響を数学と実験を通して解析する。
最後に,デモの深さを増大させ,本手法の深部構造への適用性を実証する。
関連論文リスト
- Is Temperature Sample Efficient for Softmax Gaussian Mixture of Experts? [27.924615931679757]
本研究は,MoEの下での最大推定値に対する専門家(MoE)の密度-スパース混合の影響について検討する。
本稿では,線形層の出力を活性化関数にルーティングし,ソフトマックス関数に伝達する新しいアクティベーション・トゥ・スパースゲートを提案する。
論文 参考訳(メタデータ) (2024-01-25T01:09:09Z) - Achieving Margin Maximization Exponentially Fast via Progressive Norm
Rescaling [7.6730288475318815]
線形分離可能なデータの分類における勾配に基づくアルゴリズムによるマージン最大化バイアスについて検討する。
我々は、プログレッシブ・リスケーリング・グラディエント(PRGD)と呼ばれる新しいアルゴリズムを提案し、PRGDがエム指数率でマージンを最大化できることを示す。
PRGDはまた、線形に分離できないデータセットやディープニューラルネットワークに適用する際の一般化性能の向上を約束している。
論文 参考訳(メタデータ) (2023-11-24T10:07:10Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Enhancing Classifier Conservativeness and Robustness by Polynomiality [23.099278014212146]
我々はその状況をいかに改善できるかを示す。
直接的に関連し、単純で、しかし重要な技術的ノベルティは、SoftRmaxです。
我々は,ソフトRmaxの2つの側面,保守性,本質的な頑健性は,逆正則化につながることを示した。
論文 参考訳(メタデータ) (2022-03-23T19:36:19Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。