論文の概要: Universal Conditional Masked Language Pre-training for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2203.09210v1
- Date: Thu, 17 Mar 2022 10:00:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:47:47.805882
- Title: Universal Conditional Masked Language Pre-training for Neural Machine
Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのUniversal Conditional Masked Language Pre-training
- Authors: Pengfei Li, Liangyou Li, Meng Zhang, Minghao Wu, Qun Liu
- Abstract要約: 本稿では,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
我々は広範囲な実験を行い、CeMATがすべてのシナリオで大幅なパフォーマンス向上を達成できることを示します。
- 参考スコア(独自算出の注目度): 29.334361879066602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained sequence-to-sequence models have significantly improved Neural
Machine Translation (NMT). Different from prior works where pre-trained models
usually adopt an unidirectional decoder, this paper demonstrates that
pre-training a sequence-to-sequence model but with a bidirectional decoder can
produce notable performance gains for both Autoregressive and
Non-autoregressive NMT. Specifically, we propose CeMAT, a conditional masked
language model pre-trained on large-scale bilingual and monolingual corpora in
many languages. We also introduce two simple but effective methods to enhance
the CeMAT, aligned code-switching & masking and dynamic dual-masking. We
conduct extensive experiments and show that our CeMAT can achieve significant
performance improvement for all scenarios from low to extremely high resource,
i.e., up to 14.4 BLEU on low resource and 7.9 BLEU improvements on average for
Autoregressive NMT. For Non-autoregressive NMT, we demonstrate it can also
produce consistent performance gains, i.e., up to 5.3 BLEU. As far as we know,
this is the first work to pre-train a unified model for fine-tuning on both NMT
tasks. Code, data, and pre-trained models are available at
https://github.com/huawei-noah/Pretrained-Language-Model/CeMAT
- Abstract(参考訳): 事前学習されたシーケンスからシーケンスへのモデルは、ニューラルネットワーク翻訳(nmt)を大幅に改善した。
本稿では,事前学習モデルが一方向デコーダを採用する場合と異なり,双方向デコーダを用いた場合,自己回帰型および非自己回帰型nmtにおいて有意な性能向上が得られることを示す。
具体的には,大規模バイリンガルコーパスとモノリンガルコーパスを事前学習した条件付きマスク付き言語モデルCeMATを提案する。
また,CeMATの拡張,コードスイッチングとマスキング,動的二重マスキングの2つの簡易かつ効果的な手法を導入する。
我々のCeMATは、低リソースで14.4BLEU、Autoregressive NMTで平均7.9BLEUの改善など、低リソースから極端に高いリソースを含むすべてのシナリオにおいて、大幅な性能向上を達成できることを示す。
非自己回帰NMTでは、最大5.3BLEUという一貫した性能向上が得られることを示す。
私たちが知る限りでは、両方のNMTタスクを微調整するための統一モデルを事前訓練する最初の作業である。
コード、データ、事前トレーニング済みモデルはhttps://github.com/huawei-noah/Pretrained-Language-Model/CeMATで入手できる。
関連論文リスト
- Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - End-to-End Training for Back-Translation with Categorical Reparameterization Trick [0.0]
バックトランスレーションは、ニューラルネットワーク翻訳(NMT)における効果的な半教師付き学習フレームワークである
事前学習されたNMTモデルは、モノリンガル文を翻訳し、他のNMTモデルのトレーニングのために合成バイリンガル文ペアを作成する。
翻訳文の離散的性質は、情報勾配が2つのNMTモデル間で流れるのを防ぐ。
論文 参考訳(メタデータ) (2022-02-17T06:31:03Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Unsupervised Pretraining for Neural Machine Translation Using Elastic
Weight Consolidation [0.0]
本研究は、ニューラルネットワーク翻訳における教師なし事前訓練(NMT)の現在進行中の研究を提示する。
本研究では,モノリンガルデータを用いて学習した2つの言語モデルを用いて,エンコーダとデコーダの重み付けを初期化する。
両方向のNMTエンコーダを左から右への言語モデルで初期化し、元の左から右への言語モデリングタスクを記憶させることで、エンコーダの学習能力が制限されることを示す。
論文 参考訳(メタデータ) (2020-10-19T11:51:45Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。