論文の概要: Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios
- arxiv url: http://arxiv.org/abs/2004.04507v2
- Date: Mon, 24 May 2021 01:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:55:04.488227
- Title: Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios
- Title(参考訳): 非平衡訓練データシナリオにおける教師なしニューラルマシン翻訳の自己学習
- Authors: Haipeng Sun, Rui Wang, Kehai Chen, Masao Utiyama, Eiichiro Sumita, and
Tiejun Zhao
- Abstract要約: 巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な成果を上げている。
現実のシナリオでは、エストニア語のような極低リソース言語には巨大なモノリンガルコーパスは存在しない。
頑健なUNMTシステムの訓練と性能向上のためのUNMT自己学習機構を提案する。
- 参考スコア(独自算出の注目度): 61.88012735215636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised neural machine translation (UNMT) that relies solely on massive
monolingual corpora has achieved remarkable results in several translation
tasks. However, in real-world scenarios, massive monolingual corpora do not
exist for some extremely low-resource languages such as Estonian, and UNMT
systems usually perform poorly when there is not adequate training corpus for
one language. In this paper, we first define and analyze the unbalanced
training data scenario for UNMT. Based on this scenario, we propose UNMT
self-training mechanisms to train a robust UNMT system and improve its
performance in this case. Experimental results on several language pairs show
that the proposed methods substantially outperform conventional UNMT systems.
- Abstract(参考訳): 巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な結果を得た。
しかし、現実のシナリオでは、エストニア語のような極端に低リソースな言語には巨大な単言語コーパスが存在しず、UNMTシステムは1つの言語に十分な訓練コーパスが存在しない場合、通常は不十分である。
本稿ではまず,UNMTの非バランスなトレーニングデータシナリオを定義し,分析する。
このシナリオに基づいて,ロバストな unmt システムを訓練し,その性能を向上させる unmt 自己学習機構を提案する。
複数の言語ペアにおける実験結果から,提案手法が従来のunmtシステムを大きく上回ることがわかった。
関連論文リスト
- On the Shortcut Learning in Multilingual Neural Machine Translation [95.30470845501141]
本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
論文 参考訳(メタデータ) (2024-11-15T21:09:36Z) - Relevance-guided Neural Machine Translation [5.691028372215281]
ニューラルネットワーク翻訳(NMT)のための説明可能性に基づく学習手法を提案する。
その結果,低リソース環境下でのトレーニングにおいて,本手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-11-30T21:52:02Z) - Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Supervision Improves Unsupervised Neural Machine
Translation [97.84871088440102]
我々は,高リソース言語対からゼロリソース翻訳方向への弱教師付き信号を活用するために,多言語非教師付きNMTフレームワークを導入する。
6つのベンチマークの教師なし翻訳方向において,BLEUスコアが3以上あることにより,翻訳品質が大幅に向上する。
論文 参考訳(メタデータ) (2020-04-07T05:46:49Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z) - Pre-training via Leveraging Assisting Languages and Data Selection for
Neural Machine Translation [49.51278300110449]
興味のある言語に対する単言語コーパスの不足を補うために,他の言語の単言語コーパスを活用することを提案する。
低リソースの日英ニューラルマシン翻訳(NMT)のケーススタディでは、中国語とフランス語のモノリンガルコーパスを活用することで、日本語と英語のモノリンガルコーパスの不足を克服できることが示された。
論文 参考訳(メタデータ) (2020-01-23T02:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。