論文の概要: Self-Adjust Softmax
- arxiv url: http://arxiv.org/abs/2502.18277v1
- Date: Tue, 25 Feb 2025 15:07:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 18:40:53.719765
- Title: Self-Adjust Softmax
- Title(参考訳): 自己調整ソフトマックス
- Authors: Chuanyang Zheng, Yihang Gao, Guoxuan Chen, Han Shi, Jing Xiong, Xiaozhe Ren, Chao Huang, Xin Jiang, Zhenguo Li, Yu Li,
- Abstract要約: ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
- 参考スコア(独自算出の注目度): 62.267367768385434
- License:
- Abstract: The softmax function is crucial in Transformer attention, which normalizes each row of the attention scores with summation to one, achieving superior performances over other alternative functions. However, the softmax function can face a gradient vanishing issue when some elements of the attention scores approach extreme values, such as probabilities close to one or zero. In this paper, we propose Self-Adjust Softmax (SA-Softmax) to address this issue by modifying $softmax(x)$ to $x \cdot softmax(x)$ and its normalized variant $\frac{(x - min(x_{\min},0))}{max(0,x_{max})-min(x_{min},0)} \cdot softmax(x)$. We theoretically show that SA-Softmax provides enhanced gradient properties compared to the vanilla softmax function. Moreover, SA-Softmax Attention can be seamlessly integrated into existing Transformer models to their attention mechanisms with minor adjustments. We conducted experiments to evaluate the empirical performance of Transformer models using SA-Softmax compared to the vanilla softmax function. These experiments, involving models with up to 2.7 billion parameters, are conducted across diverse datasets, language tasks, and positional encoding methods.
- Abstract(参考訳): ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化し、他の代替関数よりも優れたパフォーマンスを達成する。
しかしながら、ソフトマックス関数は、注意点のいくつかの要素が1または0に近い確率のような極端な値に近づくと、勾配が消える問題に直面する。
本稿では、この問題を解決するために、$softmax(x)$を$x \cdot Softmax(x)$に修正し、その正規化された変種である$\frac{(x - min(x_{\min},0))}{max(0,x_{max})-min(x_{min},0)} \cdot softmax(x)$を変更することを提案する。
理論上, SA-Softmaxはバニラソフトマックス関数と比較して勾配特性が向上することを示した。
さらに、SA-Softmax Attentionは、微調整で既存のTransformerモデルにシームレスに統合できる。
本研究では,SA-Softmaxを用いたトランスフォーマーモデルの性能評価実験を行い,バニラソフトマックス関数と比較した。
最大270億のパラメータを持つモデルを含むこれらの実験は、多様なデータセット、言語タスク、位置エンコーディングメソッドにまたがって行われる。
関連論文リスト
- Scalable-Softmax Is Superior for Attention [0.0]
トランスフォーマーベースの言語モデルは、注意点を計算するためにSoftmaxに依存している。
SSMaxは入力ベクトルサイズが異なるシナリオでSoftmaxを置き換える。
SSMaxを用いたモデルは、事前訓練中に損失の削減を高速化するだけでなく、長期の文脈における性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-31T18:55:35Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - Spectral Aware Softmax for Visible-Infrared Person Re-Identification [123.69049942659285]
Visible-infrared person re-identification (VI-ReID) は、異なるモードの歩行者画像とマッチングすることを目的としている。
既存の手法は依然として、単一モダリティ分類タスクで広く使われているソフトマックス損失訓練パラダイムに従っている。
そこで本研究では, スペクトル対応ソフトマックス(SA-Softmax)の損失について提案する。
論文 参考訳(メタデータ) (2023-02-03T02:57:18Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Stabilizing Q Learning Via Soft Mellowmax Operator [12.208344427928466]
Mellowmaxは学習と計画における収束行動を可能にする、微分可能で非拡張型ソフトマックス演算子である。
SM2演算子を多エージェント強化学習シナリオに適用することにより,安定な値関数近似と技術性能の状態を実現できることを示す。
論文 参考訳(メタデータ) (2020-12-17T09:11:13Z) - Exploring Alternatives to Softmax Function [0.5924831288313849]
ソフトマックス関数の代替としてテイラー・ソフトマックス, SM-ソフトマックス, 提案したSM-テイラー・ソフトマックスについて検討した。
異なるデータセット上の画像分類タスクに対する実験により、通常のソフトマックス関数よりも優れたSM-テイラーソフトマックス関数の構成が常に存在することが明らかとなった。
論文 参考訳(メタデータ) (2020-11-23T16:50:18Z) - Optimal Approximation -- Smoothness Tradeoffs for Soft-Max Functions [73.33961743410876]
ソフトマックス関数は近似と滑らかさの2つの主要な効率尺度を持つ。
近似と滑らか性の異なる尺度に対する最適近似-滑らか性トレードオフを同定する。
これにより、新しいソフトマックス関数が生まれ、それぞれ異なる用途に最適である。
論文 参考訳(メタデータ) (2020-10-22T05:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。