論文の概要: Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages
- arxiv url: http://arxiv.org/abs/2009.11201v2
- Date: Fri, 12 Mar 2021 15:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 16:01:17.405936
- Title: Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages
- Title(参考訳): 希少言語に対する教師なし機械翻訳における多言語性のハーネス化
- Authors: Xavier Garcia, Aditya Siddhant, Orhan Firat, Ankur P. Parikh
- Abstract要約: マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
- 参考スコア(独自算出の注目度): 48.28540903568198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised translation has reached impressive performance on resource-rich
language pairs such as English-French and English-German. However, early
studies have shown that in more realistic settings involving low-resource, rare
languages, unsupervised translation performs poorly, achieving less than 3.0
BLEU. In this work, we show that multilinguality is critical to making
unsupervised systems practical for low-resource settings. In particular, we
present a single model for 5 low-resource languages (Gujarati, Kazakh, Nepali,
Sinhala, and Turkish) to and from English directions, which leverages
monolingual and auxiliary parallel data from other high-resource language pairs
via a three-stage training scheme. We outperform all current state-of-the-art
unsupervised baselines for these languages, achieving gains of up to 14.4 BLEU.
Additionally, we outperform a large collection of supervised WMT submissions
for various language pairs as well as match the performance of the current
state-of-the-art supervised model for Nepali-English. We conduct a series of
ablation studies to establish the robustness of our model under different
degrees of data quality, as well as to analyze the factors which led to the
superior performance of the proposed approach over traditional unsupervised
models.
- Abstract(参考訳): 教師なし翻訳は、英語とフランス語とドイツ語のような資源豊富な言語対において印象的なパフォーマンスを達成した。
しかし、初期の研究では、低リソースで希少な言語を含むより現実的な環境では、教師なし翻訳は性能が悪く、3.0BLEU以下であることが示されている。
本研究では,低リソース環境において教師なしシステムを実現する上で,多言語性が重要であることを示す。
特に,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)を英語方向から1つのモデルとして提示する。
我々はこれらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
さらに,様々な言語ペアに対する教師付きwmt提案の膨大なコレクションと,ネパール・イングリッシュにおける現在最先端の教師付きモデルのパフォーマンスを上回っている。
我々は,データ品質の異なる条件下でモデルのロバスト性を確立するための一連のアブレーション研究を行い,従来の教師なしモデルよりも優れた性能をもたらす要因を分析した。
関連論文リスト
- Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language
Generation [4.874780144224057]
自然言語生成のための言語間移動は、比較的研究が進められている。
NLGの4つのタスク(テキスト要約、質問生成、ニュース見出し生成、イントラクタ生成)と3つの構文的に多様な言語について検討する。
並列あるいは擬似並列/バックトランスレートデータを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:08:01Z) - Self-Learning for Zero Shot Neural Machine Translation [13.551731309506874]
本研究は、並列データを共有するピボット言語を仮定せずに学習するゼロショットNMTモデリング手法を提案する。
教師なしNMTと比較して、ドメインミスマッチ設定でも一貫した改善が観察される。
論文 参考訳(メタデータ) (2021-03-10T09:15:19Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。