論文の概要: Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
- arxiv url: http://arxiv.org/abs/2504.20966v1
- Date: Tue, 29 Apr 2025 17:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.019447
- Title: Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
- Title(参考訳): Softpick:注意シンクなし、Softmaxで大量のアクティベーションなし
- Authors: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji,
- Abstract要約: 我々は,変圧器の注意機構におけるソフトマックスの置き換えであるソフトピック(Softpick)を導入する。
340Mパラメータモデルによる実験は、ソフトピックがソフトマックスと同等の性能を維持することを示した。
ソフトピックを用いたモデルは、量子化されるとソフトマックスを一貫して上回る。
- 参考スコア(独自算出の注目度): 10.266804817415867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M parameter models demonstrate that softpick maintains performance parity with softmax on standard benchmarks while achieving 0% sink rate. The softpick transformer produces hidden states with significantly lower kurtosis (340 vs 33,510) and creates sparse attention maps (46.97% sparsity). Models using softpick consistently outperform softmax when quantized, with particularly pronounced advantages at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention.
- Abstract(参考訳): 我々は、注意シンクや大規模な活性化を排除したトランスフォーマーアテンション機構において、ソフトマックスの修正された1対1ではなく1対1のドロップイン置換であるソフトピックを導入する。
340Mパラメータモデルによる実験により,ソフトピックは標準ベンチマークにおけるソフトマックスと同等性能を維持しつつ,0%のシンクレートを実現していることが示された。
ソフトピック変圧器は、クルトーシスが著しく低い隠れ状態(340対33,510)を生成し、スパースアテンションマップ(46.97%の間隔)を生成する。
ソフトピックを用いたモデルは、量子化されると一貫してソフトマックスを上回り、特に低ビット精度では顕著な利点がある。
我々の分析と議論は、Softpickが量子化、低精度トレーニング、スパーシティ最適化、プルーニング、解釈可能性の新しい可能性を開く可能性を示している。
私たちのコードはhttps://github.com/zaydzuhri/softpick-attention.comで利用可能です。
関連論文リスト
- Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。
この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:07:40Z) - Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。
我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文 参考訳(メタデータ) (2025-02-01T02:36:14Z) - SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors [1.8999662338457695]
ソフトマックスやレイヤーノルムのような非線形作用素は、量子化に対する感度のためにボトルネックのままである。
In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。
論文 参考訳(メタデータ) (2024-11-26T20:00:54Z) - MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - To Copy, or not to Copy; That is a Critical Issue of the Output Softmax
Layer in Neural Sequential Recommenders [48.8643117818312]
本研究では,単一隠れ状態埋め込みと静的アイテム埋め込みを出力ソフトマックス層に埋め込むという問題の原因を明らかにする。
我々は、最近提案されたSoftmax-CPRのようなソフトマックス代替案を逐次レコメンデーションタスクに適用し、新しいソフトマックスアーキテクチャが、いつコピーするか、いつ入力シーケンスからアイテムを除外するかを学ぶ際に、ニューラルエンコーダの能力を解き放つことを示した。
論文 参考訳(メタデータ) (2023-10-21T18:04:04Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Real Additive Margin Softmax for Speaker Verification [14.226089039985151]
AM-Softmaxの損失は、真のマックスマージントレーニングを実装していないことを示す。
ソフトマックストレーニングにおいて真のマージン関数を含むリアルAM-Softmax損失を示す。
論文 参考訳(メタデータ) (2021-10-18T09:11:14Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Effectiveness of MPC-friendly Softmax Replacement [13.710300609457267]
我々は、ソフトマックス置換の2つの用途を分析し、ソフトマックスと比較する。
置換は1層ネットワークにおいて重要なスピードアップしか提供しないのに対して、常に精度を低下させ、時には著しく低下することがわかった。
論文 参考訳(メタデータ) (2020-11-23T04:14:32Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。