Fugu-MT 論文翻訳(概要): Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

論文の概要: Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

arxiv url: http://arxiv.org/abs/2504.20966v2
Date: Fri, 30 May 2025 12:37:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 17:26:04.987823
Title: Softpick: No Attention Sink, No Massive Activations with Rectified Softmax
Title（参考訳）: Softpick:注意シンクなし、Softmaxで大量のアクティベーションなし
Authors: Zayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji,
Abstract要約: 我々は,変圧器の注意機構におけるソフトマックスの置き換えであるソフトピック(Softpick)を導入する。 340Mおよび1.8Bパラメータモデルによる実験では、ソフトピックが一貫して0%のシンクレートを達成することが示された。標準的なベンチマークでは、ソフトピックを用いた量子モデルはソフトマックスよりも優れており、特に低ビット精度では顕著な利点がある。
参考スコア（独自算出の注目度）: 10.266804817415867
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We introduce softpick, a rectified, not sum-to-one, drop-in replacement for softmax in transformer attention mechanisms that eliminates attention sink and massive activations. Our experiments with 340M and 1.8B parameter models demonstrate that softpick achieves 0\% sink rate consistently. The softpick transformers produce hidden states with significantly lower kurtosis and creates sparse attention maps. Quantized models using softpick outperform softmax on standard benchmarks, with a particularly pronounced advantage at lower bit precisions. Our analysis and discussion shows how softpick has the potential to open new possibilities for quantization, low-precision training, sparsity optimization, pruning, and interpretability. Our code is available at https://github.com/zaydzuhri/softpick-attention
Abstract（参考訳）: 我々は、注意シンクや大規模な活性化を排除したトランスフォーマーアテンション機構において、ソフトマックスの修正された1対1ではなく1対1のドロップイン置換であるソフトピックを導入する。 340M と 1.8B のパラメータモデルによる実験により,ソフトピックの沈下速度が一定であることを示す。ソフトピック変換器は、クルトーシスが著しく低い隠れ状態を生成し、スパースアテンションマップを生成する。標準的なベンチマークでは、ソフトピックを用いた量子モデルはソフトマックスよりも優れており、特に低ビット精度では顕著な利点がある。我々の分析と議論は、Softpickが量子化、低精度トレーニング、スパーシティ最適化、プルーニング、解釈可能性の新しい可能性を開く可能性を示している。私たちのコードはhttps://github.com/zaydzuhri/softpick-attentionで利用可能です。

関連論文リスト

Adaptive Sparse Softmax: An Effective and Efficient Softmax Variant [27.488444797784563]
ソフトマックス」は現在のニューラル分類モデルの標準構成である。本稿では,適応スパースソフトマックス (AS-Softmax) を提案する。提案したAS-Softmaxは,5～5000以上のクラスサイズを持つテキストマルチクラス,テキストマルチラベル,テキストトークン分類,画像分類,音声分類タスクで検証する。その結果、AS-Softmaxはソフトマックスとその変種を一貫して上回り、AS-Softmaxの損失は検証における分類性能と著しく相関していることがわかった。
論文参考訳（メタデータ） (2025-08-05T07:36:32Z)
$ε$-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise [99.91399796174602]
ノイズラベルは、正確なディープニューラルネットワークをトレーニングする上で共通の課題となる。我々は,ソフトマックス層の出力を制御可能な誤差で1ホットベクトルに近似させる,$epsilon$-softmaxを提案する。理論的には、$epsilon$-softmaxは、ほぼ任意の損失関数に対して制御可能な過剰リスクを持つ耐雑音学習を実現することができる。
論文参考訳（メタデータ） (2025-08-04T13:10:48Z)
Box-Constrained Softmax Function and Its Application for Post-Hoc Calibration [29.222132137091368]
ソフトマックスモデルにおける出力確率の制御は、現代の機械学習において一般的な問題である。ボックス制約付きソフトマックス(mathrmBCSoftmax$)関数を提案する。これは$mathrmSoftmax$関数の新たな一般化であり、出力確率に対して下限と上限を明示的に強制する。
論文参考訳（メタデータ） (2025-06-12T11:01:43Z)
Practical estimation of the optimal classification error with soft labels and calibration [52.1410307583181]
我々は,ベイズ誤差,最適誤差率を推定するために,ソフトラベルを用いた以前の研究を拡張した。我々は、破損したソフトラベルによる推定という、より困難な問題に取り組みます。私たちのメソッドはインスタンスフリーです。つまり、入力インスタンスへのアクセスを前提としません。
論文参考訳（メタデータ） (2025-05-27T06:04:57Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Self-Adjust Softmax [62.267367768385434]
ソフトマックス関数はトランスフォーマーアテンションにおいて重要であり、アテンションスコアの各行を1にまとめて正規化する。この問題に対処するために、$softmax(x)$を$x cdot Softmax(x)$に修正し、その正規化された変種である$frac(x - min(x_min,0))max(0,x_max)-min(x_min,0)cdot softmax(x)$を変更することを提案する。
論文参考訳（メタデータ） (2025-02-25T15:07:40Z)
Sigmoid Self-Attention is Better than Softmax Self-Attention: A Mixture-of-Experts Perspective [69.72942835553228]
本稿では,Sigmoid self-attentionがソフトマックスよりも試料効率が高いことを理論的に示す。我々は,シグモイド自己注意における'専門家'は,ソフトマックス自己注意と同一の近似誤差を達成するために,極めて少ないデータを必要とすることを示した。
論文参考訳（メタデータ） (2025-02-01T02:36:14Z)
SoftmAP: Software-Hardware Co-design for Integer-Only Softmax on Associative Processors [1.8999662338457695]
ソフトマックスやレイヤーノルムのような非線形作用素は、量子化に対する感度のためにボトルネックのままである。 In-Memory Compute (IMC) ハードウェアを用いた整数のみの低精度Softmaxを実装したソフトウェアハードウェアの共同設計手法であるSoftmAPを提案する。
論文参考訳（メタデータ） (2024-11-26T20:00:54Z)
MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文参考訳（メタデータ） (2024-06-03T10:51:43Z)
To Copy, or not to Copy; That is a Critical Issue of the Output Softmax Layer in Neural Sequential Recommenders [48.8643117818312]
本研究では,単一隠れ状態埋め込みと静的アイテム埋め込みを出力ソフトマックス層に埋め込むという問題の原因を明らかにする。我々は、最近提案されたSoftmax-CPRのようなソフトマックス代替案を逐次レコメンデーションタスクに適用し、新しいソフトマックスアーキテクチャが、いつコピーするか、いつ入力シーケンスからアイテムを除外するかを学ぶ際に、ニューラルエンコーダの能力を解き放つことを示した。
論文参考訳（メタデータ） (2023-10-21T18:04:04Z)
r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文参考訳（メタデータ） (2023-04-11T14:28:29Z)
Real Additive Margin Softmax for Speaker Verification [14.226089039985151]
AM-Softmaxの損失は、真のマックスマージントレーニングを実装していないことを示す。ソフトマックストレーニングにおいて真のマージン関数を含むリアルAM-Softmax損失を示す。
論文参考訳（メタデータ） (2021-10-18T09:11:14Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)
Effectiveness of MPC-friendly Softmax Replacement [13.710300609457267]
我々は、ソフトマックス置換の2つの用途を分析し、ソフトマックスと比較する。置換は1層ネットワークにおいて重要なスピードアップしか提供しないのに対して、常に精度を低下させ、時には著しく低下することがわかった。
論文参考訳（メタデータ） (2020-11-23T04:14:32Z)
Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。 30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2020-06-25T17:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。