論文の概要: Very Deep Transformers for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2008.07772v2
- Date: Wed, 14 Oct 2020 22:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:31:45.580584
- Title: Very Deep Transformers for Neural Machine Translation
- Title(参考訳): 神経機械翻訳のための超深層トランスフォーマー
- Authors: Xiaodong Liu, Kevin Duh, Liyuan Liu and Jianfeng Gao
- Abstract要約: 最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
- 参考スコア(独自算出の注目度): 100.51465892354234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the application of very deep Transformer models for Neural Machine
Translation (NMT). Using a simple yet effective initialization technique that
stabilizes training, we show that it is feasible to build standard
Transformer-based models with up to 60 encoder layers and 12 decoder layers.
These deep models outperform their baseline 6-layer counterparts by as much as
2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14
English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14
English-German (30.1 BLEU).The code and trained models will be publicly
available at: https://github.com/namisan/exdeep-nmt.
- Abstract(参考訳): ニューラルマシン翻訳(nmt)における超深層トランスフォーマーモデルの応用について検討する。
トレーニングを安定させるシンプルで効果的な初期化手法を用いて,最大60のエンコーダ層と12のデコーダ層を持つ標準トランスフォーマーモデルを構築することが可能であることを示す。
これらの深層モデルは、ベースラインの6層を2.5 bleuで上回り、wmt14 英語-フランス語 (43.8 bleu と 46.4 bleu with back-translation) と wmt14 英語-ドイツ語 (30.1 bleu) で最新のベンチマーク結果を達成した。
コードとトレーニングされたモデルは、https://github.com/namisan/exdeep-nmt.comで公開される。
関連論文リスト
- GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Recurrent multiple shared layers in Depth for Neural Machine Translation [11.660776324473645]
本稿では,トランスフォーマーのエンコーダブロックとデコーダブロックを奥行き方向にループする再帰機構を持つ深層モデルを提案する。
深層トランス (20層エンコーダ, 6層デコーダ) と比較して, モデル性能と推論速度は類似しているが, モデルパラメータは前者の54.72%である。
論文 参考訳(メタデータ) (2021-08-23T21:21:45Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z) - Language Models are Good Translators [63.528370845657896]
単一言語モデル(LM4MT)は,強力なエンコーダデコーダNMTモデルと同等の性能が得られることを示す。
ピボットベースおよびゼロショット変換タスクの実験により、LM4MTはエンコーダ・デコーダのNMTモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-06-25T13:30:29Z) - Learning Light-Weight Translation Models from Deep Transformer [25.386460662408773]
本稿では,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
私達の圧縮されたモデルはBLEUのほとんど損失無しで深いモデルより8X浅いです。
教師モデルをさらに強化するため,サブレイヤをランダムに省略してトレーニングに摂動を導入するスキップサブ層法を提案する。
論文 参考訳(メタデータ) (2020-12-27T05:33:21Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Shallow-to-Deep Training for Neural Machine Translation [42.62107851930165]
本稿では,高度に調整された深部変圧器システムの動作について検討する。
積層層はNMTモデルの表現能力の向上に有効であることがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
論文 参考訳(メタデータ) (2020-10-08T02:36:07Z) - Attention Is All You Need [36.87735219227719]
本稿では,アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャであるTransformerを提案する。
2つの機械翻訳タスクの実験は、これらのモデルの品質が優れていることを示している。
論文 参考訳(メタデータ) (2017-06-12T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。