論文の概要: Alternatives to the Scaled Dot Product for Attention in the Transformer
Neural Network Architecture
- arxiv url: http://arxiv.org/abs/2311.09406v1
- Date: Wed, 15 Nov 2023 22:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:41.779816
- Title: Alternatives to the Scaled Dot Product for Attention in the Transformer
Neural Network Architecture
- Title(参考訳): 変圧器ニューラルネットアーキテクチャにおける注意のためのスケールドドット製品に代わるもの
- Authors: James Bernhard
- Abstract要約: トランスフォーマーニューラルネットワークアーキテクチャは、クエリとキーのドット積を、ソフトマックスを適用する前にキー次元の平方根で分割する、注意の形式を使用する。
ソフトマックスを適用する前に、鍵長の和でドット積を分割するなど、別のスケーリングを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer neural network architecture uses a form of attention in which
the dot product of query and key is divided by the square root of the key
dimension before applying softmax. This scaling of the dot product is designed
to avoid the absolute value of the dot products becoming so large that applying
softmax leads to vanishing gradients. In this paper, we propose some
alternative scalings, including dividing the dot product instead by the sum of
the key lengths before applying softmax. We use simulated keys and queries to
show that in many situations this appears to be more effective at avoiding
regions where applying softmax leads to vanishing gradients.
- Abstract(参考訳): トランスニューラルネットワークアーキテクチャでは,クエリとキーのドット積をキー次元の平方根で分割してソフトマックスを適用するという,注意の形式を採用している。
このドット積のスケーリングは、ドット積の絶対値が大きくなるのを避けるために設計されており、ソフトマックスを適用すると勾配が消える。
本稿では,ソフトマックスを適用する前に鍵長の和でドット積を分割するなど,別のスケーリング手法を提案する。
我々は、シミュレートされたキーとクエリを使用して、多くの状況において、ソフトマックスを適用する領域を避けることが、勾配の消失につながることを示す。
関連論文リスト
- softmax is not enough (for sharp out-of-distribution) [16.167142726585357]
ソフトマックス関数は、現代のAIシステムにおけるシャープな振る舞いのキーキャリアである。
最大キーを見つけるのと同じくらい簡単なタスクの場合、学習した回路はテスト時にアイテムの数が増加するにつれて分散しなければならない。
推定時間におけるソフトマックスのシャープネスを改善するためのアドホックな手法として適応温度を提案する。
論文 参考訳(メタデータ) (2024-10-01T22:22:35Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - A Study on ReLU and Softmax in Transformer [51.0740713922741]
Transformerアーキテクチャは、キーバリューメモリと見なせる自己アテンションとフィードフォワードネットワーク(FFN)で構成されている。
まず、FFNとキー値メモリの接続をReLUとSoftmaxの広範な研究により再構築する。
さらに、ReLUは値スロット数が大きければFFNとキー値メモリの両方でSoftmaxより優れている。
論文 参考訳(メタデータ) (2023-02-13T15:41:20Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - SubFace: Learning with Softmax Approximation for Face Recognition [3.262192371833866]
SubFaceは、サブスペース機能を利用して顔認識の性能を向上するソフトマックス近似法である。
本手法がバニラCNNベースラインの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-08-24T12:31:08Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Sparse-softmax: A Simpler and Faster Alternative Softmax Transformation [2.3813678058429626]
ソフトマックス関数は、多クラス分類問題に対する人工ニューラルネットワークで広く用いられている。
本稿では,従来のソフトマックスで発生した問題を高次元の分類問題の観点から緩和するために,単純で簡潔なソフトマックス変種であるスパース・ソフトマックスについて実証的研究を行う。
論文 参考訳(メタデータ) (2021-12-23T09:53:38Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - Breaking the Softmax Bottleneck for Sequential Recommender Systems with
Dropout and Decoupling [0.0]
SBRSのSoftmaxボトルネックには、さらに多くの側面があることが示されています。
そこで本研究では,これらの問題を緩和するために,D&D(Dropout and Decoupling)というシンプルな手法を提案する。
本手法は,様々なSoftmaxベースのSBRSアルゴリズムの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-11T16:52:23Z) - Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in
Attention Mechanism [8.007523868483085]
ソフトマックスは、マルチクラス分類、ゲート構造、アテンションメカニズムのためのニューラルネットワークで広く使われている。
本研究では,指数関数を周期関数で置き換えることを提案する。
本手法は, 勾配問題を緩和し, ソフトマックスとその変種と比較して大幅に改善できることが証明された。
論文 参考訳(メタデータ) (2021-08-16T15:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。