論文の概要: Improving Zero-shot Multilingual Neural Machine Translation for
Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2110.00712v1
- Date: Sat, 2 Oct 2021 02:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:55:48.350347
- Title: Improving Zero-shot Multilingual Neural Machine Translation for
Low-Resource Languages
- Title(参考訳): 低リソース言語のためのゼロショット多言語ニューラルマシン翻訳の改善
- Authors: Chenyang Li, Gongxu Luo
- Abstract要約: タグ付き多言語NMTモデルを提案し,これら2つの問題に対処する自己学習アルゴリズムを改良する。
IWSLTの実験結果によると、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although the multilingual Neural Machine Translation(NMT), which extends
Google's multilingual NMT, has ability to perform zero-shot translation and the
iterative self-learning algorithm can improve the quality of zero-shot
translation, it confronts with two problems: the multilingual NMT model is
prone to generate wrong target language when implementing zero-shot
translation; the self-learning algorithm, which uses beam search to generate
synthetic parallel data, demolishes the diversity of the generated source
language and amplifies the impact of the same noise during the iterative
learning process. In this paper, we propose the tagged-multilingual NMT model
and improve the self-learning algorithm to handle these two problems. Firstly,
we extend the Google's multilingual NMT model and add target tokens to the
target languages, which associates the start tag with the target language to
ensure that the source language can be translated to the required target
language. Secondly, we improve the self-learning algorithm by replacing beam
search with random sample to increases the diversity of the generated data and
makes it properly cover the true data distribution. Experimental results on
IWSLT show that the adjusted tagged-multilingual NMT separately obtains 9.41
and 7.85 BLEU scores over the multilingual NMT on 2010 and 2017
Romanian-Italian test sets. Similarly, it obtains 9.08 and 7.99 BLEU scores on
Italian-Romanian zero-shot translation. Furthermore, the improved self-learning
algorithm shows its superiorities over the conventional self-learning algorithm
on zero-shot translations.
- Abstract(参考訳): Although the multilingual Neural Machine Translation(NMT), which extends Google's multilingual NMT, has ability to perform zero-shot translation and the iterative self-learning algorithm can improve the quality of zero-shot translation, it confronts with two problems: the multilingual NMT model is prone to generate wrong target language when implementing zero-shot translation; the self-learning algorithm, which uses beam search to generate synthetic parallel data, demolishes the diversity of the generated source language and amplifies the impact of the same noise during the iterative learning process.
本稿では,タグ付き多言語NMTモデルを提案し,これら2つの問題に対処するための自己学習アルゴリズムを改良する。
まず、Googleの多言語NMTモデルを拡張し、ターゲット言語にターゲットトークンを追加します。
第2に,ビーム探索をランダムなサンプルに置き換えて自己学習アルゴリズムを改良し,生成データの多様性を高め,真のデータ分布を適切にカバーする。
IWSLTの実験結果によると、2010年と2017年のルーマニア・イタリアテストセットにおいて、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。
同様に、イタリア-ルーマニアのゼロショット翻訳で9.08点と7.99点を得る。
さらに, 改良された自己学習アルゴリズムは, 従来のゼロショット翻訳における自己学習アルゴリズムよりも優れていることを示す。
関連論文リスト
- Optimizing the Training Schedule of Multilingual NMT using Reinforcement Learning [0.3277163122167433]
マルチ言語NMTのトレーニングスケジュールを最適化するために強化学習を利用する2つのアルゴリズムを提案する。
LRLとHRLを用いた8対1の翻訳データセットでは,単言語バッチのランダム選択と多言語バッチのシャッフルの両方に関して,BLEUとCOMETのスコアが向上する。
論文 参考訳(メタデータ) (2024-10-08T15:20:13Z) - Language-Informed Beam Search Decoding for Multilingual Machine Translation [24.044315362087687]
言語インフォームドビームサーチ(Language-informed Beam Search, LiBS)は、市販の言語識別(LiD)モデルをビームサーチデコードに組み込んだ汎用デコードアルゴリズムである。
その結果、提案したLiBSアルゴリズムは平均で+1.1 BLEUと+0.9 BLEUをWMTおよびOPUSデータセットで改善し、ターゲット外レートを22.9%から7.7%、65.8%から25.3%に削減した。
論文 参考訳(メタデータ) (2024-08-11T09:57:46Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Zero-shot Cross-lingual Transfer of Neural Machine Translation with
Multilingual Pretrained Encoders [74.89326277221072]
多言語プリトレーニング済みエンコーダによるNMTモデルのクロスリンガル転送を改善する方法は、未検討です。
このタスクのシンプルで効果的なモデルであるSixTを提案します。
私達のモデルはCRISSおよびm2m-100より多くの英語テストセットでよりよい性能を達成します。
論文 参考訳(メタデータ) (2021-04-18T07:42:45Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。