論文の概要: Shallow-to-Deep Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2010.03737v1
- Date: Thu, 8 Oct 2020 02:36:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 12:08:44.802778
- Title: Shallow-to-Deep Training for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための浅深度学習
- Authors: Bei Li, Ziyang Wang, Hui Liu, Yufan Jiang, Quan Du, Tong Xiao, Huizhen
Wang and Jingbo Zhu
- Abstract要約: 本稿では,高度に調整された深部変圧器システムの動作について検討する。
積層層はNMTモデルの表現能力の向上に有効であることがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
- 参考スコア(独自算出の注目度): 42.62107851930165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep encoders have been proven to be effective in improving neural machine
translation (NMT) systems, but training an extremely deep encoder is time
consuming. Moreover, why deep models help NMT is an open question. In this
paper, we investigate the behavior of a well-tuned deep Transformer system. We
find that stacking layers is helpful in improving the representation ability of
NMT models and adjacent layers perform similarly. This inspires us to develop a
shallow-to-deep training method that learns deep models by stacking shallow
models. In this way, we successfully train a Transformer system with a 54-layer
encoder. Experimental results on WMT'16 English-German and WMT'14
English-French translation tasks show that it is $1.4$ $\times$ faster than
training from scratch, and achieves a BLEU score of $30.33$ and $43.29$ on two
tasks. The code is publicly available at
https://github.com/libeineu/SDT-Training/.
- Abstract(参考訳): ディープエンコーダはニューラルネットワーク翻訳(NMT)システムの改善に有効であることが証明されているが、非常にディープエンコーダのトレーニングには時間がかかる。
さらに、なぜディープモデルがNMTに役立つのかという疑問もある。
本稿では,よく調整された深層変圧器の挙動について検討する。
積層層はNMTモデルの表現能力の向上に有効であり, 隣接する層も同様に機能することがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
このようにして、54層エンコーダを用いたトランスフォーマーシステムのトレーニングに成功した。
wmt'16英語-ドイツ語とwmt'14英語-フランス語の翻訳タスクの実験の結果、トレーニングより14ドル早いことが示され、2つのタスクで30.33$と43.29$のbleuスコアを達成している。
コードはhttps://github.com/libeineu/SDT-Training/で公開されている。
関連論文リスト
- The NiuTrans System for WNGT 2020 Efficiency Task [32.88733142090084]
本稿では,NuTrans チームの WNGT 2020 効率共有タスクへの提出について述べる。
我々は,NLPタスクの柔軟なツールキットであるNiuTensorを用いて,ディープトランスフォーマーモデルの効率的な実装に着目する。
論文 参考訳(メタデータ) (2021-09-16T14:32:01Z) - Efficient Inference for Multilingual Neural Machine Translation [60.10996883354372]
我々は、その品質を劣化させることなく、多言語NMTを推論で高速にする方法をいくつか検討する。
実験により,浅いデコーダと語彙フィルタを組み合わせることで,翻訳品質を損なうことなく2倍以上の高速な推論が可能であることが確認された。
論文 参考訳(メタデータ) (2021-09-14T13:28:13Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Dynamic Multi-Branch Layers for On-Device Neural Machine Translation [53.637479651600586]
動的マルチブランチ層を用いたオンデバイスニューラルマシン翻訳(NMT)システムの性能向上を提案する。
具体的には、トレーニングと推論中に1つの分岐のみを活性化した層方向動的マルチブランチネットワークを設計する。
ほぼ同じ計算コストで、WMT14英語-ドイツ語翻訳タスクでは最大1.7 BLEUポイント、WMT20中国語-英語翻訳タスクでは1.8 BLEUポイントの改善を実現します。
論文 参考訳(メタデータ) (2021-05-14T07:32:53Z) - Learning Light-Weight Translation Models from Deep Transformer [25.386460662408773]
本稿では,深部変圧器モデルを浅部モデルに圧縮するためのグループ置換に基づく知識蒸留手法を提案する。
私達の圧縮されたモデルはBLEUのほとんど損失無しで深いモデルより8X浅いです。
教師モデルをさらに強化するため,サブレイヤをランダムに省略してトレーニングに摂動を導入するスキップサブ層法を提案する。
論文 参考訳(メタデータ) (2020-12-27T05:33:21Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - Norm-Based Curriculum Learning for Neural Machine Translation [45.37588885850862]
ニューラルネットワーク翻訳(NMT)システムは、特に高リソース設定でトレーニングに費用がかかる。
本稿では,NMTの学習効率を向上させるために,新しい規範に基づくカリキュラム学習手法を提案する。
提案手法はBLEUスコア(+1.17/+1.56)とトレーニングスピードアップ(2.22x/3.33x)で高いベースラインを達成できる。
論文 参考訳(メタデータ) (2020-06-03T02:22:00Z) - Multiscale Collaborative Deep Models for Neural Machine Translation [40.52423993051359]
従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-04-29T08:36:08Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。