論文の概要: On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss
- arxiv url: http://arxiv.org/abs/2305.17182v2
- Date: Sun, 4 Jun 2023 09:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 00:40:40.409780
- Title: On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss
- Title(参考訳): 教師なしNMTのコピー問題--言語識別器損失のある訓練スケジュールについて-
- Authors: Yihong Liu, Alexandra Chronopoulou, Hinrich Sch\"utze, Alexander
Fraser
- Abstract要約: unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
- 参考スコア(独自算出の注目度): 120.19360680963152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although unsupervised neural machine translation (UNMT) has achieved success
in many language pairs, the copying problem, i.e., directly copying some parts
of the input sentence as the translation, is common among distant language
pairs, especially when low-resource languages are involved. We find this issue
is closely related to an unexpected copying behavior during online
back-translation (BT). In this work, we propose a simple but effective training
schedule that incorporates a language discriminator loss. The loss imposes
constraints on the intermediate translation so that the translation is in the
desired language. By conducting extensive experiments on different language
pairs, including similar and distant, high and low-resource languages, we find
that our method alleviates the copying problem, thus improving the translation
performance on low-resource languages.
- Abstract(参考訳): unsupervised neural machine translation (UNMT)は、多くの言語対で成功したが、特に低リソース言語が関与する場合には、コピーの問題、すなわち入力文の一部を翻訳として直接コピーすることが一般的である。
この問題は,オンライン翻訳(BT)における予期せぬ複製行動と密接に関連している。
本研究では,言語判別器の損失を組み込んだ簡易かつ効果的な訓練スケジュールを提案する。
この損失は、翻訳が所望の言語にあるように中間翻訳に制約を課す。
類似言語,遠隔言語,高低リソース言語など,異なる言語対に対する広範な実験を行うことで,提案手法が複写問題を軽減し,低リソース言語での翻訳性能を向上させることが確認された。
関連論文リスト
- A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - On the Off-Target Problem of Zero-Shot Multilingual Neural Machine
Translation [104.85258654917297]
識別対象言語信号の符号化に失敗すると、オフターゲットとなり、語彙距離が近くなることが判明した。
多言語語彙構築のための言語認識語彙共有(LAVS)を提案する。
我々は11言語で多言語機械翻訳ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-18T12:43:31Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。