論文の概要: Scalable-Softmax Is Superior for Attention
- arxiv url: http://arxiv.org/abs/2501.19399v1
- Date: Fri, 31 Jan 2025 18:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:55.462555
- Title: Scalable-Softmax Is Superior for Attention
- Title(参考訳): Scalable-Softmaxが注目に値する
- Authors: Ken M. Nakanishi,
- Abstract要約: トランスフォーマーベースの言語モデルは、注意点を計算するためにSoftmaxに依存している。
SSMaxは入力ベクトルサイズが異なるシナリオでSoftmaxを置き換える。
SSMaxを用いたモデルは、事前訓練中に損失の削減を高速化するだけでなく、長期の文脈における性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The maximum element of the vector output by the Softmax function approaches zero as the input vector size increases. Transformer-based language models rely on Softmax to compute attention scores, causing the attention distribution to flatten as the context size grows. This reduces the model's ability to prioritize key information effectively and potentially limits its length generalization. To address this problem, we propose Scalable-Softmax (SSMax), which replaces Softmax in scenarios where the input vector size varies. SSMax can be seamlessly integrated into existing Transformer-based architectures. Experimental results in language modeling show that models using SSMax not only achieve faster loss reduction during pretraining but also significantly improve performance in long contexts and key information retrieval. Furthermore, an analysis of attention scores reveals that SSMax enables the model to focus attention on key information even in long contexts. Additionally, although models that use SSMax from the beginning of pretraining achieve better length generalization, those that have already started pretraining can still gain some of this ability by replacing Softmax in the attention layers with SSMax, either during or after pretraining.
- Abstract(参考訳): ソフトマックス関数によって出力されるベクトルの最大要素は、入力ベクトルサイズが大きくなるにつれてゼロに近づく。
トランスフォーマーベースの言語モデルは、注意スコアを計算するためにSoftmaxに依存しており、コンテキストサイズが大きくなるにつれて注意分布が平坦になる。
これにより、キー情報を効果的に優先順位付けする能力が低下し、その長さの一般化が制限される可能性がある。
この問題に対処するために,入力ベクトルサイズが変化するシナリオにおいて,Softmaxを置き換えるScalable-Softmax(SSMax)を提案する。
SSMaxは既存のTransformerベースのアーキテクチャにシームレスに統合できる。
言語モデリングにおける実験結果から,SSMaxを用いたモデルでは,事前学習時の損失削減が高速化されるだけでなく,長時間のコンテキストやキー情報検索の性能が大幅に向上することが示された。
さらに、注目スコアの分析により、SSMaxは長いコンテキストにおいても重要な情報に注意を向けることができることがわかった。
さらに、事前訓練の開始からSSMaxを使用するモデルは、より長い一般化を実現するが、既に事前訓練を開始しているモデルは、注意層内のSoftmaxを事前訓練中または事前訓練後のSSMaxに置き換えることで、この能力の一部を得ることができる。
関連論文リスト
- MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - Alternatives to the Scaled Dot Product for Attention in the Transformer
Neural Network Architecture [0.0]
トランスフォーマーニューラルネットワークアーキテクチャは、クエリとキーのドット積を、ソフトマックスを適用する前にキー次元の平方根で分割する、注意の形式を使用する。
ソフトマックスを適用する前に、鍵長の和でドット積を分割するなど、別のスケーリングを提案する。
論文 参考訳(メタデータ) (2023-11-15T22:10:42Z) - Revisiting Logistic-softmax Likelihood in Bayesian Meta-Learning for Few-Shot Classification [4.813254903898101]
ロジスティック・ソフトマックスは、多クラスガウス過程分類におけるソフトマックス可能性の代替としてしばしば用いられる。
我々は,温度パラメータによるテクティタ事前信頼度を制御できるロジスティック・ソフトマックスの可能性を再検討し,再検討する。
提案手法では, 精度の高い不確実性推定値が得られ, 標準ベンチマークデータセットにおいて, 同等あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2023-10-16T13:20:13Z) - Zero-th Order Algorithm for Softmax Attention Optimization [21.631643446337737]
ソフトマックス最適化に適したゼロ次アルゴリズムを提案する。
本稿では,アルゴリズムの収束を実演し,大規模言語モデルに対する効率的な勾配計算の有効性を明らかにする。
論文 参考訳(メタデータ) (2023-07-17T09:43:50Z) - r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。
我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文 参考訳(メタデータ) (2023-04-11T14:28:29Z) - Spectral Aware Softmax for Visible-Infrared Person Re-Identification [123.69049942659285]
Visible-infrared person re-identification (VI-ReID) は、異なるモードの歩行者画像とマッチングすることを目的としている。
既存の手法は依然として、単一モダリティ分類タスクで広く使われているソフトマックス損失訓練パラダイムに従っている。
そこで本研究では, スペクトル対応ソフトマックス(SA-Softmax)の損失について提案する。
論文 参考訳(メタデータ) (2023-02-03T02:57:18Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。