論文の概要: Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2005.04816v1
- Date: Mon, 11 May 2020 00:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 19:25:59.966882
- Title: Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳のための自己スーパービジョンによる単言語データ活用
- Authors: Aditya Siddhant, Ankur Bapna, Yuan Cao, Orhan Firat, Mia Chen, Sneha
Kudugunta, Naveen Arivazhagan and Yonghui Wu
- Abstract要約: モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
- 参考スコア(独自算出の注目度): 54.52971020087777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the last few years two promising research directions in low-resource
neural machine translation (NMT) have emerged. The first focuses on utilizing
high-resource languages to improve the quality of low-resource languages via
multilingual NMT. The second direction employs monolingual data with
self-supervision to pre-train translation models, followed by fine-tuning on
small amounts of supervised data. In this work, we join these two lines of
research and demonstrate the efficacy of monolingual data with self-supervision
in multilingual NMT. We offer three major results: (i) Using monolingual data
significantly boosts the translation quality of low-resource languages in
multilingual models. (ii) Self-supervision improves zero-shot translation
quality in multilingual models. (iii) Leveraging monolingual data with
self-supervision provides a viable path towards adding new languages to
multilingual models, getting up to 33 BLEU on ro-en translation without any
parallel data or back-translation.
- Abstract(参考訳): ここ数年、低リソースニューラルネットワーク翻訳(NMT)における有望な2つの研究方向が浮上した。
1つ目は、多言語NMTによる低リソース言語の品質向上のために、高リソース言語の利用に焦点を当てている。
第2の方向では、単言語データと自己スーパービジョンを用いて、事前学習の翻訳モデルを使用し、少量の教師付きデータを微調整する。
本研究では,これらの2つの研究の行に加わり,多言語NMTにおける自己スーパービジョンによるモノリンガルデータの有効性を実証する。
主な成果は3つあります
(i)単言語データを用いることで、多言語モデルにおける低リソース言語の翻訳品質が著しく向上する。
(II)自己監督は多言語モデルのゼロショット翻訳品質を改善する。
3) 単言語データを自己超越で活用することにより,複数言語モデルに新たな言語を追加し,並列データやバックトランスレーションを必要とせずに,ロエン翻訳において最大33 BLEUに達することができる。
関連論文リスト
- High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。