論文の概要: Self-Learning for Zero Shot Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2103.05951v1
- Date: Wed, 10 Mar 2021 09:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 16:04:59.871881
- Title: Self-Learning for Zero Shot Neural Machine Translation
- Title(参考訳): ゼロショットニューラルマシン翻訳のための自己学習
- Authors: Surafel M. Lakew, Matteo Negri, Marco Turchi
- Abstract要約: 本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
- 参考スコア(独自算出の注目度): 13.551731309506874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Machine Translation (NMT) approaches employing monolingual data are
showing steady improvements in resource rich conditions. However, evaluations
using real-world low-resource languages still result in unsatisfactory
performance. This work proposes a novel zero-shot NMT modeling approach that
learns without the now-standard assumption of a pivot language sharing parallel
data with the zero-shot source and target languages. Our approach is based on
three stages: initialization from any pre-trained NMT model observing at least
the target language, augmentation of source sides leveraging target monolingual
data, and learning to optimize the initial model to the zero-shot pair, where
the latter two constitute a self-learning cycle. Empirical findings involving
four diverse (in terms of a language family, script and relatedness) zero-shot
pairs show the effectiveness of our approach with up to +5.93 BLEU improvement
against a supervised bilingual baseline. Compared to unsupervised NMT,
consistent improvements are observed even in a domain-mismatch setting,
attesting to the usability of our method.
- Abstract(参考訳): モノリンガルデータを用いたニューラルマシン翻訳(NMT)手法は、資源の豊富な条件を着実に改善しています。
しかし、現実世界の低リソース言語を用いた評価は未だに不十分なパフォーマンスをもたらす。
本研究は、ゼロショットソースとターゲット言語で並列データを共有するピボット言語を仮定することなく学習する、新しいゼロショットNMTモデリング手法を提案する。
このアプローチは,少なくとも目標言語を観察する事前学習されたnmtモデルからの初期化,ターゲットの単言語データを活用したソースサイドの拡張,ゼロショットペアへの初期モデル最適化の学習という3つの段階に基づいている。
言語族, スクリプト, 関連性の4つの異なるゼロショットペアによる経験的発見は, 教師付きバイリンガルベースラインに対する最大5.93BLEUの改善によるアプローチの有効性を示した。
教師なしNMTと比較して,ドメインミスマッチ設定においても一貫した改善が観察され,本手法の有用性が確認された。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Exploiting Multilingualism in Low-resource Neural Machine Translation
via Adversarial Learning [3.2258463207097017]
Generative Adversarial Networks (GAN) はニューラルマシン翻訳(NMT)に有望なアプローチを提供する
GANでは、バイリンガルモデルと同様に、マルチリンガルNTTはモデルトレーニング中に各文の参照翻訳を1つだけ考慮している。
本稿では,DAASI(Denoising Adversarial Auto-Encoder-based Sentence Interpolation)アプローチによる文計算を提案する。
論文 参考訳(メタデータ) (2023-03-31T12:34:14Z) - Improving Zero-shot Multilingual Neural Machine Translation for
Low-Resource Languages [1.0965065178451106]
タグ付き多言語NMTモデルを提案し,これら2つの問題に対処する自己学習アルゴリズムを改良する。
IWSLTの実験結果によると、調整されたタグ付き多言語NMTは、多言語NMTに対して9.41と7.85のBLEUスコアを得る。
論文 参考訳(メタデータ) (2021-10-02T02:50:53Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。