論文の概要: On Layer Normalizations and Residual Connections in Transformers
- arxiv url: http://arxiv.org/abs/2206.00330v1
- Date: Wed, 1 Jun 2022 08:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:47:39.270679
- Title: On Layer Normalizations and Residual Connections in Transformers
- Title(参考訳): 変圧器の層正規化と残留接続について
- Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki
- Abstract要約: 最近のトランスフォーマーは、10層以上の層が不安定になるような深層トランスフォーマーによるPost-LNでのトレーニングが不安定になるため、Pre-LNを選択することを好む。
比較的浅いトランスフォーマーでは、Post-LNはPre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNからの簡単な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
- 参考スコア(独自算出の注目度): 40.44674210101826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the perspective of a layer normalization (LN) position, the architecture
of Transformers can be categorized into two types: Post-LN and Pre-LN. Recent
Transformers prefer to select Pre-LN because the training in Post-LN with deep
Transformers, e.g., ten or more layers, often becomes unstable, resulting in
useless models. However, in contrast, Post-LN has also consistently achieved
better performance than Pre-LN in relatively shallow Transformers, e.g., six or
fewer layers. This study first investigates the reason for these discrepant
observations empirically and theoretically and discovers 1, the LN in Post-LN
is the source of the vanishing gradient problem that mainly leads the unstable
training whereas Pre-LN prevents it, and 2, Post-LN tends to preserve larger
gradient norms in higher layers during the back-propagation that may lead an
effective training. Exploiting the new findings, we propose a method that can
equip both higher stability and effective training by a simple modification
from Post-LN. We conduct experiments on a wide range of text generation tasks
and demonstrate that our method outperforms Pre-LN, and stable training
regardless of the shallow or deep layer settings.
- Abstract(参考訳): 層正規化(LN)位置の観点からは、トランスフォーマーのアーキテクチャはPost-LNとPre-LNの2つのタイプに分類される。
最近のトランスフォーマーは、Post-LNの深層トランスフォーマー(例えば10層以上の層)でのトレーニングが不安定になるため、Pre-LNを選択することを好む。
しかし、対照的にPost-LNは比較的浅いトランスフォーマーではPre-LNよりも優れたパフォーマンスを実現している。
本研究はまず,これらの不規則な観測の理由を実証的および理論的に検討し,その原因として,Post-LNのLNが不安定なトレーニングを主に導く一方で,Pre-LNがそれを防ぐ一方で,Post-LNのLNが消失する勾配問題の原因となっていること,そして2。
そこで本研究では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
テキスト生成タスクの多種多様な実験を行い,提案手法がPre-LNより優れ,浅層・深層設定にかかわらず安定したトレーニングが可能であることを示す。
関連論文リスト
- You can remove GPT2's LayerNorm by fine-tuning [0.0]
GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。
LNは、大規模な言語モデルのトレーニングを安定させるために必要な重要なコンポーネントである。
トレーニングデータの分数(500Mトークン)を微調整することにより,事前学習したGPT2小モデルからLN層を除去できることを示す。
論文 参考訳(メタデータ) (2024-09-06T16:17:06Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。