論文の概要: DeepNet: Scaling Transformers to 1,000 Layers
- arxiv url: http://arxiv.org/abs/2203.00555v1
- Date: Tue, 1 Mar 2022 15:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 13:55:13.354392
- Title: DeepNet: Scaling Transformers to 1,000 Layers
- Title(参考訳): DeepNet:1000レイヤへのトランスフォーマーのスケーリング
- Authors: Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Dongdong Zhang, Furu
Wei
- Abstract要約: トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
- 参考スコア(独自算出の注目度): 106.33669415337135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a simple yet effective method to stabilize
extremely deep Transformers. Specifically, we introduce a new normalization
function (DeepNorm) to modify the residual connection in Transformer,
accompanying with theoretically derived initialization. In-depth theoretical
analysis shows that model updates can be bounded in a stable way. The proposed
method combines the best of two worlds, i.e., good performance of Post-LN and
stable training of Pre-LN, making DeepNorm a preferred alternative. We
successfully scale Transformers up to 1,000 layers (i.e., 2,500 attention and
feed-forward network sublayers) without difficulty, which is one order of
magnitude deeper than previous deep Transformers. Remarkably, on a multilingual
benchmark with 7,482 translation directions, our 200-layer model with 3.2B
parameters significantly outperforms the 48-layer state-of-the-art model with
12B parameters by 5 BLEU points, which indicates a promising scaling direction.
- Abstract(参考訳): 本稿では,極端に深い変圧器を安定化する簡易かつ効果的な方法を提案する。
具体的には、理論上導出された初期化を伴うトランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
提案手法は、Post-LNの優れた性能とPre-LNの安定したトレーニングという2つの世界のベストを組み合わせ、DeepNormが好ましい選択肢となる。
我々は、1000層までのトランスフォーマー(2500の注意とフィードフォワードのネットワークサブレイヤー)を、従来のディープトランスフォーマーよりも1桁深い難易度でスケールすることに成功しました。
注目すべきは、7,482の翻訳方向を持つ多言語ベンチマークにおいて、3.2Bパラメータを持つ200層モデルは、12Bパラメータを持つ48層の最先端モデルを5 BLEUポイントで大幅に上回り、期待できるスケーリング方向を示す。
関連論文リスト
- Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。
我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文 参考訳(メタデータ) (2024-03-14T17:59:14Z) - Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。
TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。
これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:53:39Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z) - Recurrent multiple shared layers in Depth for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。
深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。
論文 参考訳(メタデータ) (2021-08-23T21:21:45Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - DeLighT: Deep and Light-weight Transformer [116.9850555964728]
DeLighTは、パラメータが大幅に少ない標準のトランスフォーマーベースモデルと同じような、あるいは優れたパフォーマンスを提供する。
DeLighTは、DeLighT変換、ディープおよびライトウェイト変換、および(2)ブロック単位のスケーリングを用いて、(1)各トランスフォーマーブロック内のパラメータをより効率的に割り当てる。
論文 参考訳(メタデータ) (2020-08-03T03:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。