論文の概要: On Layer Normalization in the Transformer Architecture
- arxiv url: http://arxiv.org/abs/2002.04745v2
- Date: Mon, 29 Jun 2020 07:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:45:03.204413
- Title: On Layer Normalization in the Transformer Architecture
- Title(参考訳): 変圧器アーキテクチャにおける層正規化について
- Authors: Ruibin Xiong, Yunchang Yang, Di He, Kai Zheng, Shuxin Zheng, Chen
Xing, Huishuai Zhang, Yanyan Lan, Liwei Wang, Tie-Yan Liu
- Abstract要約: まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
- 参考スコア(独自算出の注目度): 112.40350994368741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer is widely used in natural language processing tasks. To train
a Transformer however, one usually needs a carefully designed learning rate
warm-up stage, which is shown to be crucial to the final performance but will
slow down the optimization and bring more hyper-parameter tunings. In this
paper, we first study theoretically why the learning rate warm-up stage is
essential and show that the location of layer normalization matters.
Specifically, we prove with mean field theory that at initialization, for the
original-designed Post-LN Transformer, which places the layer normalization
between the residual blocks, the expected gradients of the parameters near the
output layer are large. Therefore, using a large learning rate on those
gradients makes the training unstable. The warm-up stage is practically helpful
for avoiding this problem. On the other hand, our theory also shows that if the
layer normalization is put inside the residual blocks (recently proposed as
Pre-LN Transformer), the gradients are well-behaved at initialization. This
motivates us to remove the warm-up stage for the training of Pre-LN
Transformers. We show in our experiments that Pre-LN Transformers without the
warm-up stage can reach comparable results with baselines while requiring
significantly less training time and hyper-parameter tuning on a wide range of
applications.
- Abstract(参考訳): Transformerは自然言語処理タスクで広く使われている。
しかし、Transformerをトレーニングするには、通常は慎重に設計された学習率ウォームアップステージが必要である。
本稿では,学習率ウォームアップ段階がなぜ必須なのかを理論的に検討し,階層正規化の位置が重要であることを示す。
具体的には,初期化時に残差ブロック間の層正規化を配置する原設計のポストln変圧器において,出力層近傍のパラメータの期待勾配が大きいことを平均場理論により証明する。
したがって、これらの勾配に対する学習率が大きいため、トレーニングは不安定である。
ウォームアップステージは、この問題を避けるのに役立ちます。
一方, この理論は, 層正規化を残差ブロック(現在は Pre-LN Transformer として提案されている)内に置けば, 勾配は初期化時に良好であることを示す。
これは、Pre-LNトランスフォーマーのトレーニングのウォームアップステージを取り除く動機となります。
ウォームアップステージのないPre-LNトランスフォーマーは、トレーニング時間とハイパーパラメータチューニングを広範囲のアプリケーションで大幅に削減しつつ、ベースラインで同等の結果が得られることを示す。
関連論文リスト
- Normalization Layer Per-Example Gradients are Sufficient to Predict Gradient Noise Scale in Transformers [2.1415873597974286]
比例勾配ノルムは、最小分散で勾配雑音スケール(GNS)を推定するための重要な要素である。
本稿では,パラメータ勾配を計算しながら基準を同時に計算することで,3次元あるいはそれ以上のテンソル状態におけるFLOPを最小化する手法を提案する。
現代変圧器モデルの総 GNS は正規化層のみの GNS によりよく予測されている。
論文 参考訳(メタデータ) (2024-11-01T19:50:00Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - The Expressive Power of Tuning Only the Normalization Layers [5.779559262502591]
BatchやLayer-Normalizationといった特徴正規化変換は、最先端のディープニューラルネットワークの必須要素となっている。
近年の微調整型大規模事前学習モデルの研究は、これらのアフィン変換のパラメータを調整するだけで下流タスクの精度が向上することを示している。
ランダムなReLUネットワークの場合、正規化層のみを微調整することで、$O(sqrttextwidth)$倍のターゲットネットワークを再構築できることを示す。
論文 参考訳(メタデータ) (2023-02-15T20:44:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。