論文の概要: A Multilingual View of Unsupervised Machine Translation
- arxiv url: http://arxiv.org/abs/2002.02955v4
- Date: Fri, 16 Oct 2020 20:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:44:55.918287
- Title: A Multilingual View of Unsupervised Machine Translation
- Title(参考訳): 教師なし機械翻訳の多言語的視点
- Authors: Xavier Garcia, Pierre Foret, Thibault Sellam, Ankur P. Parikh
- Abstract要約: 本稿では、教師付きおよび教師なしのセットアップを含む多言語ニューラルマシン翻訳のための確率的フレームワークを提案する。
提案手法は,WMT'14,WMT'16,WMT'16,WMT'16,WMT'16の非教師付きモデルよりもBLEUスコアが高いことを示す。
- 参考スコア(独自算出の注目度): 22.32130421893608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a probabilistic framework for multilingual neural machine
translation that encompasses supervised and unsupervised setups, focusing on
unsupervised translation. In addition to studying the vanilla case where there
is only monolingual data available, we propose a novel setup where one language
in the (source, target) pair is not associated with any parallel data, but
there may exist auxiliary parallel data that contains the other. This auxiliary
data can naturally be utilized in our probabilistic framework via a novel
cross-translation loss term. Empirically, we show that our approach results in
higher BLEU scores over state-of-the-art unsupervised models on the WMT'14
English-French, WMT'16 English-German, and WMT'16 English-Romanian datasets in
most directions. In particular, we obtain a +1.65 BLEU advantage over the
best-performing unsupervised model in the Romanian-English direction.
- Abstract(参考訳): 本稿では、教師なしおよび教師なしのセットアップを含む多言語ニューラルマシン翻訳のための確率的フレームワークを提案する。
単言語データしか存在しないバニラの場合の研究に加えて、(ソース、ターゲット)ペア内の1つの言語が、任意の並列データと関連付けられていないが、他方を含む補助並列データが存在するという新しい設定を提案する。
この補助データは、新しいクロストランスレーション損失項によって、確率的枠組みで自然に利用できる。
実験により,WMT'14,WMT'16,WMT'16,WMT'16,WMT'16の非教師付きモデルよりも高いBLEUスコアが得られた。
特に、ルーマニア英語の方向において最高の教師なしモデルよりも+1.65 bleuの利点が得られる。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Integrating Unsupervised Data Generation into Self-Supervised Neural
Machine Translation for Low-Resource Languages [25.33888871213517]
非教師なし機械翻訳(UMT)は大量のモノリンガルデータを利用する。
SSNMT (Self-supervised NMT) は、より小さなデータで並列文を識別し、それらを訓練する。
SSNMTにUTT手法を組み込むことで、全てのテストされた言語対においてSNMTとUTTを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T11:56:03Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。