論文の概要: Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training
- arxiv url: http://arxiv.org/abs/2002.12549v2
- Date: Thu, 3 Dec 2020 03:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:14:01.320840
- Title: Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training
- Title(参考訳): 逆分岐訓練を用いたロバストな教師なしニューラルマシン翻訳
- Authors: Haipeng Sun, Rui Wang, Kehai Chen, Xugang Lu, Masao Utiyama, Eiichiro
Sumita, and Tiejun Zhao
- Abstract要約: unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
- 参考スコア(独自算出の注目度): 66.39561682517741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised neural machine translation (UNMT) has recently attracted great
interest in the machine translation community. The main advantage of the UNMT
lies in its easy collection of required large training text sentences while
with only a slightly worse performance than supervised neural machine
translation which requires expensive annotated translation pairs on some
translation tasks. In most studies, the UMNT is trained with clean data without
considering its robustness to the noisy data. However, in real-world scenarios,
there usually exists noise in the collected input sentences which degrades the
performance of the translation system since the UNMT is sensitive to the small
perturbations of the input sentences. In this paper, we first time explicitly
take the noisy data into consideration to improve the robustness of the UNMT
based systems. First of all, we clearly defined two types of noises in training
sentences, i.e., word noise and word order noise, and empirically investigate
its effect in the UNMT, then we propose adversarial training methods with
denoising process in the UNMT. Experimental results on several language pairs
show that our proposed methods substantially improved the robustness of the
conventional UNMT systems in noisy scenarios.
- Abstract(参考訳): unsupervised neural machine translation (UNMT)は、最近機械翻訳コミュニティに大きな関心を集めている。
unmtの主な利点は、翻訳タスクで高価な注釈付き翻訳ペアを必要とする教師付きニューラルマシン翻訳よりもわずかに悪いパフォーマンスで、必要な大規模なテキスト文の収集が容易であることだ。
多くの研究において、UMNTはノイズの多いデータに対する堅牢性を考慮せずにクリーンなデータで訓練されている。
しかし、実世界のシナリオでは、UNMTが入力文の小さな摂動に敏感であるため、通常、収集された入力文には、翻訳システムの性能を低下させるノイズが存在する。
本稿では,unmtベースのシステムのロバスト性を改善するため,ノイズのあるデータを明示的に検討する。
まず,訓練文中の2種類の雑音,すなわち単語雑音と単語順雑音を明確に定義し,unmtにおけるその効果を実験的に検討し,unmtにおける非有意化過程を伴う敵対的学習法を提案する。
複数の言語ペアを用いた実験により,提案手法が従来のunmtシステムの頑健性を大幅に改善したことを示す。
関連論文リスト
- How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation [10.739338438716965]
実世界のハード・トゥ・デテクト・ミスアライメントノイズが機械翻訳に与える影響について検討する。
トークンレベルでの不整合とクリーンなデータを区別するために,モデルの自己認識の信頼性が高まるのを観察することにより,自己補正手法を提案する。
提案手法は,8つの翻訳タスクにまたがる実世界のノイズの多いWebマイニングデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-07-02T12:15:15Z) - Ask Language Model to Clean Your Noisy Translation Data [7.246698449812031]
MTNTのターゲット文からノイズを除去することに集中し、ノイズ評価のベンチマークとしてより適している。
大規模言語モデル (LLM) はスラング, ジャーゴン, 代名詞を効果的に言い換えることができることを示す。
C-MTNT実験はNMTモデルのロバスト性を評価する上での有効性を示した。
論文 参考訳(メタデータ) (2023-10-20T13:05:32Z) - Improving Cascaded Unsupervised Speech Translation with Denoising
Back-translation [70.33052952571884]
我々は,任意のペアデータを活用することなく,カスケード音声翻訳システムを構築することを提案する。
教師なしのシステムをトレーニングし、CoVoST 2 と CVSS で結果を評価するために、完全にペア化されたデータを使用します。
論文 参考訳(メタデータ) (2023-05-12T13:07:51Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Addressing the Vulnerability of NMT in Input Perturbations [10.103375853643547]
文脈拡張再構成手法により,雑音のある単語の効果を低減し,NMTモデルのロバスト性を向上させる。
CERは、(1)入力シーケンスの自然性を判断するステップ、(2)より優れた、より堅牢な文脈表現を生成することで、ノイズ伝搬を防御するステップの2つのステップで、ノイズに抵抗するモデルを訓練する。
論文 参考訳(メタデータ) (2021-04-20T07:52:58Z) - Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios [61.88012735215636]
巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な成果を上げている。
現実のシナリオでは、エストニア語のような極低リソース言語には巨大なモノリンガルコーパスは存在しない。
頑健なUNMTシステムの訓練と性能向上のためのUNMT自己学習機構を提案する。
論文 参考訳(メタデータ) (2020-04-09T12:07:17Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。