論文の概要: Multiscale Collaborative Deep Models for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2004.14021v3
- Date: Mon, 11 May 2020 01:21:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:44:02.037208
- Title: Multiscale Collaborative Deep Models for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための多スケール協調深層モデル
- Authors: Xiangpeng Wei, Heng Yu, Yue Hu, Yue Zhang, Rongxiang Weng, Weihua Luo
- Abstract要約: 従来よりもはるかに深いNMTモデルのトレーニングを容易にするために,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNTTモデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 40.52423993051359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent evidence reveals that Neural Machine Translation (NMT) models with
deeper neural networks can be more effective but are difficult to train. In
this paper, we present a MultiScale Collaborative (MSC) framework to ease the
training of NMT models that are substantially deeper than those used
previously. We explicitly boost the gradient back-propagation from top to
bottom levels by introducing a block-scale collaboration mechanism into deep
NMT models. Then, instead of forcing the whole encoder stack directly learns a
desired representation, we let each encoder block learns a fine-grained
representation and enhance it by encoding spatial dependencies using a
context-scale collaboration. We provide empirical evidence showing that the MSC
nets are easy to optimize and can obtain improvements of translation quality
from considerably increased depth. On IWSLT translation tasks with three
translation directions, our extremely deep models (with 72-layer encoders)
surpass strong baselines by +2.2~+3.1 BLEU points. In addition, our deep MSC
achieves a BLEU score of 30.56 on WMT14 English-German task that significantly
outperforms state-of-the-art deep NMT models.
- Abstract(参考訳): 最近のエビデンスは、より深いニューラルネットワークを持つニューラルマシン翻訳(nmt)モデルはより効果的であるが、訓練が困難であることを示している。
本稿では,従来よりもはるかに深いNMTモデルのトレーニングを容易にするため,MultiScale Collaborative (MSC) フレームワークを提案する。
我々は,深部NMTモデルにブロックスケール協調機構を導入することにより,下位レベルから下位レベルへの勾配バックプロパゲーションを明示的に向上する。
そこで,各エンコーダブロックは,エンコーダスタック全体を直接,所望の表現を学習させる代わりに,よりきめ細かな表現を学習させ,コンテキストスケールの協調を用いて空間的依存関係を符号化することによって拡張させる。
我々は,msc網の最適化が容易であり,翻訳品質が大幅に向上することを示す実証的証拠を提供する。
3つの翻訳方向を持つIWSLT翻訳タスクでは、非常に深いモデル(72層エンコーダ)が+2.2~+3.1 BLEU点を超える。
さらに、我々のディープMSCは、WMT14におけるBLEUスコアが30.56で、最先端のディープNMTモデルよりも大幅に優れています。
関連論文リスト
- Improving Neural Machine Translation by Multi-Knowledge Integration with
Prompting [36.24578487904221]
我々は,マルチ知識,複数種類の知識をNMTモデルに統合し,プロンプトによる性能向上に着目する。
文,用語/フレーズ,翻訳テンプレートなど,複数の種類の知識をNMTモデルに効果的に統合する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:55:00Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Self-supervised and Supervised Joint Training for Resource-rich Machine
Translation [30.502625878505732]
テキスト表現の自己教師付き事前学習が低リソースニューラルネットワーク翻訳(NMT)に成功している
我々は,NMTモデルを最適化するために,自己教師付き学習と教師付き学習を組み合わせた共同学習手法である$F$-XEnDecを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:35:40Z) - Shallow-to-Deep Training for Neural Machine Translation [42.62107851930165]
本稿では,高度に調整された深部変圧器システムの動作について検討する。
積層層はNMTモデルの表現能力の向上に有効であることがわかった。
これにより,浅層モデルの積み重ねによる深層モデルの学習を行う浅層から深層への学習法が開発される。
論文 参考訳(メタデータ) (2020-10-08T02:36:07Z) - Very Deep Transformers for Neural Machine Translation [100.51465892354234]
最大60のエンコーダ層と12のデコーダ層を持つ標準のTransformerベースのモデルを構築することが可能であることを示す。
これらのディープモデルは、ベースラインの6層モデルよりも2.5BLEUを上回っている。
論文 参考訳(メタデータ) (2020-08-18T07:14:54Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Multi-layer Representation Fusion for Neural Machine Translation [38.12309528346962]
積層層を融合する多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
論文 参考訳(メタデータ) (2020-02-16T23:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。