論文の概要: On the Shortcut Learning in Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2411.10581v1
- Date: Fri, 15 Nov 2024 21:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:54.929680
- Title: On the Shortcut Learning in Multilingual Neural Machine Translation
- Title(参考訳): 多言語ニューラルマシン翻訳におけるショートカット学習について
- Authors: Wenxuan Wang, Wenxiang Jiao, Jen-tse Huang, Zhaopeng Tu, Michael R. Lyu,
- Abstract要約: 本研究は、多言語ニューラルマシン翻訳(MNMT)において、一般的に語られるオフターゲット問題を再考する。
ターゲット外の問題は、(非中心的、中心的でない)言語マッピングのショートカットが過度に適合していることに起因しています。
学習力学の解析によると、ショートカット学習はモデルトレーニングの後期に一般的に発生する。
- 参考スコア(独自算出の注目度): 95.30470845501141
- License:
- Abstract: In this study, we revisit the commonly-cited off-target issue in multilingual neural machine translation (MNMT). By carefully designing experiments on different MNMT scenarios and models, we attribute the off-target issue to the overfitting of the shortcuts of (non-centric, centric) language mappings. Specifically, the learned shortcuts biases MNMT to mistakenly translate non-centric languages into the centric language instead of the expected non-centric language for zero-shot translation. Analyses on learning dynamics show that the shortcut learning generally occurs in the later stage of model training, and multilingual pretraining accelerates and aggravates the shortcut learning. Based on these observations, we propose a simple and effective training strategy to eliminate the shortcuts in MNMT models by leveraging the forgetting nature of model training. The only difference from the standard training is that we remove the training instances that may induce the shortcut learning in the later stage of model training. Without introducing any additional data and computational costs, our approach can consistently and significantly improve the zero-shot translation performance by alleviating the shortcut learning for different MNMT models and benchmarks.
- Abstract(参考訳): 本研究では,多言語ニューラルマシン翻訳(MNMT)において,一般的に語られるオフターゲット問題を再考する。
異なるMNMTシナリオとモデルの実験を慎重に設計することにより、ターゲット外の問題は(非中心的、中心的)言語マッピングのショートカットの過度な適合に起因している。
具体的には、学習したショートカットは、非中心言語をゼロショット翻訳のために期待される非中心言語ではなく、誤って中心言語に翻訳するMNMTにバイアスを与える。
学習力学の解析により、モデルトレーニングの後期にショートカット学習が一般的に発生し、複数言語による事前学習が促進され、ショートカット学習が増大することが示された。
本研究は,MNMTモデルにおけるショートカットを,モデルトレーニングの忘れてしまう性質を活用することで,簡易かつ効果的なトレーニング戦略を提案する。
標準トレーニングと唯一の違いは、モデルトレーニングの後期でショートカット学習を誘発する可能性のあるトレーニングインスタンスを削除することです。
新たなデータや計算コストを導入することなく、異なるMNMTモデルやベンチマークのショートカット学習を緩和することにより、ゼロショット翻訳性能を一貫して向上させることができる。
関連論文リスト
- Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。