論文の概要: B2T Connection: Serving Stability and Performance in Deep Transformers
- arxiv url: http://arxiv.org/abs/2206.00330v2
- Date: Fri, 26 May 2023 09:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:18:06.395674
- Title: B2T Connection: Serving Stability and Performance in Deep Transformers
- Title(参考訳): b2t接続:ディープトランスの安定性と性能
- Authors: Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki
- Abstract要約: 最近のトランスフォーマーは、ディープトランスフォーマーを備えたPost-LNでは、トレーニングが不安定で、役に立たないモデルになるため、Pre-LNになる傾向にある。
Post-LNは比較的浅いトランスフォーマーにおいて、Pre-LNよりも一貫して優れたパフォーマンスを実現している。
本稿では,Post-LNの簡易な修正により,高い安定性と効果的なトレーニングを両立できる手法を提案する。
- 参考スコア(独自算出の注目度): 40.44674210101826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From the perspective of the layer normalization (LN) positions, the
architectures of Transformers can be categorized into two types: Post-LN and
Pre-LN. Recent Transformers tend to be Pre-LN because, in Post-LN with deep
Transformers (e.g., those with ten or more layers), the training is often
unstable, resulting in useless models. However, Post-LN has consistently
achieved better performance than Pre-LN in relatively shallow Transformers
(e.g., those with six or fewer layers). This study first investigates the
reason for these discrepant observations empirically and theoretically and made
the following discoveries: 1, the LN in Post-LN is the main source of the
vanishing gradient problem that leads to unstable training, whereas Pre-LN
prevents it, and 2, Post-LN tends to preserve larger gradient norms in higher
layers during the back-propagation, which may lead to effective training.
Exploiting the new findings, we propose a method that can provide both high
stability and effective training by a simple modification of Post-LN. We
conduct experiments on a wide range of text generation tasks. The experimental
results demonstrate that our method outperforms Pre-LN, and enables stable
training regardless of the shallow or deep layer settings. Our code is publicly
available at https://github.com/takase/b2t_connection.
- Abstract(参考訳): 層正規化(LN)位置の観点からは、トランスフォーマーのアーキテクチャはPost-LNとPre-LNの2つのタイプに分類される。
最近のトランスフォーマーは、深いトランスフォーマー(例えば10層以上のトランスフォーマー)を持つポストlnでは、トレーニングが不安定で役に立たないモデルになることが多いため、プレlnである傾向がある。
しかし、Post-LNは比較的浅いトランスフォーマー(例えば6層以下のトランスフォーマー)において、Pre-LNよりも一貫してパフォーマンスが向上している。
本研究はまず,これらの不規則な観測の理由を実証的・理論的に検討し,次の発見を行った: 1) Post-LNのLNは不安定なトレーニングにつながる消失する勾配問題の主原因であり,2) Post-LNは後方伝播の過程で, 上位層の勾配ノルムを大きく保つ傾向にあり, 効果的なトレーニングにつながる可能性がある。
そこで本研究では,Post-LNの簡易な修正により,高安定性と効果的なトレーニングを両立させる手法を提案する。
我々は、幅広いテキスト生成タスクについて実験を行う。
実験の結果,本手法はプレlnよりも優れており,浅い層や深い層でも安定したトレーニングが可能であった。
私たちのコードはhttps://github.com/takase/b2t_connectionで公開されています。
関連論文リスト
- You can remove GPT2's LayerNorm by fine-tuning [0.0]
GPT型トランスモデルにおけるLayerNorm(LN)層は、長年にわたり機械的解釈可能性の障害となっている。
LNは、大規模な言語モデルのトレーニングを安定させるために必要な重要なコンポーネントである。
トレーニングデータの分数(500Mトークン)を微調整することにより,事前学習したGPT2小モデルからLN層を除去できることを示す。
論文 参考訳(メタデータ) (2024-09-06T16:17:06Z) - ResiDual: Transformer with Dual Residual Connections [106.38073506751003]
広く使われている2つの変種は、Post-Layer-Normalization (Post-LN)とPre-Layer-Normalization (Pre-LN)である。
Post-LNは、深層トランスフォーマーのトレーニングを妨げる勾配消滅問題を引き起こし、Pre-LNはモデルキャパシティを制限する表現崩壊問題を引き起こす。
本稿では,PPLN(Pre-Post-LN)を用いた新しいトランスフォーマーアーキテクチャResiDualを提案する。
論文 参考訳(メタデータ) (2023-04-28T12:19:47Z) - Unified Normalization for Accelerating and Stabilizing Transformers [35.07454490355906]
層正規化(LN)は各トークン内のアクティベーションを正規化し、ロバスト性を高める。
LNは推論におけるオンザフライ統計計算と除算および平方根演算を必要とする。
我々は、他の線形演算と融合して推論を高速化するUnified Normalization (UN)を提案する。
論文 参考訳(メタデータ) (2022-08-02T08:41:31Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - PowerNorm: Rethinking Batch Normalization in Transformers [96.14956636022957]
自然言語処理(NLP)におけるニューラルネットワーク(NN)モデルの正規化法は層正規化(LN)である
LN は BN (naive/vanilla) の使用が NLP タスクの大幅な性能低下をもたらすという経験的観察により好まれる。
本稿では,この問題を解決する新しい正規化手法である電力正規化(PN)を提案する。
論文 参考訳(メタデータ) (2020-03-17T17:50:26Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。