論文の概要: On Layer Normalization in the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2002.04745v2
- Date: Mon, 29 Jun 2020 07:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:45:03.204413
- Title: On Layer Normalization in the Transformer Architecture
- Title(参考訳): 変圧器アーキテクチャにおける層正規化について
- Authors: Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen
Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, Tie-Yan Liu
- Abstract要約: まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 112.40350994368741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer is widely used in natural language processing tasks. To train
a Transformer however, one usually needs a carefully designed learning rate
warm-up stage, which is shown to be crucial to the final performance but will
slow down the optimization and bring more hyper-parameter tunings. In this
paper, we first study theoretically why the learning rate warm-up stage is
essential and show that the location of layer normalization matters.
Specifically, we prove with mean field theory that at initialization, for the
original-designed Post-LN Transformer, which places the layer normalization
between the residual blocks, the expected gradients of the parameters near the
output layer are large. Therefore, using a large learning rate on those
gradients makes the training unstable. The warm-up stage is practically helpful
for avoiding this problem. On the other hand, our theory also shows that if the
layer normalization is put inside the residual blocks (recently proposed as
Pre-LN Transformer), the gradients are well-behaved at initialization. This
motivates us to remove the warm-up stage for the training of Pre-LN
Transformers. We show in our experiments that Pre-LN Transformers without the
warm-up stage can reach comparable results with baselines while requiring
significantly less training time and hyper-parameter tuning on a wide range of
applications.
- Abstract(参考訳): Transformerは自然言語処理タスクで広く使われている。
しかし、Transformerをトレーニングするには、通常は慎重に設計された学習率ウォームアップステージが必要である。
本稿では,学習率ウォームアップ段階がなぜ必須なのかを理論的に検討し,階層正規化の位置が重要であることを示す。
具体的には,初期化時に残差ブロック間の層正規化を配置する原設計のポストln変圧器において,出力層近傍のパラメータの期待勾配が大きいことを平均場理論により証明する。
したがって、これらの勾配に対する学習率が大きいため、トレーニングは不安定である。
ウォームアップステージは、この問題を避けるのに役立ちます。
一方, この理論は, 層正規化を残差ブロック(現在は Pre-LN Transformer として提案されている)内に置けば, 勾配は初期化時に良好であることを示す。
これは、Pre-LNトランスフォーマーのトレーニングのウォームアップステージを取り除く動機となります。
ウォームアップステージのないPre-LNトランスフォーマーは、トレーニング時間とハイパーパラメータチューニングを広範囲のアプリケーションで大幅に削減しつつ、ベースラインで同等の結果が得られることを示す。
関連論文リスト
- On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - The Expressive Power of Tuning Only the Normalization Layers [5.779559262502591]
BatchやLayer-Normalizationといった特徴正規化変換は、最先端のディープニューラルネットワークの必須要素となっている。
近年の微調整型大規模事前学習モデルの研究は、これらのアフィン変換のパラメータを調整するだけで下流タスクの精度が向上することを示している。
ランダムなReLUネットワークの場合、正規化層のみを微調整することで、$O(sqrttextwidth)$倍のターゲットネットワークを再構築できることを示す。
論文 参考訳(メタデータ) (2023-02-15T20:44:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Optimizing Deeper Transformers on Small Datasets: An Application on
Text-to-SQL Semantic Parsing [23.280034406077757]
超深層変圧器の利点は, 強固な構造予測タスクに引き継がれることが示されている。
特に,意味解析タスクのために48層のトランスフォーマーをトレーニングすることに成功している。
論文 参考訳(メタデータ) (2020-12-30T22:53:49Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。