論文の概要: Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model
- arxiv url: http://arxiv.org/abs/2205.15544v1
- Date: Tue, 31 May 2022 05:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 02:22:05.107625
- Title: Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model
- Title(参考訳): 多言語モデルの言語差分による低リソース非教師翻訳の精製
- Authors: Xuan-Phi Nguyen, Shafiq Joty, Wu Kui, Ai Ti Aw
- Abstract要約: 本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
- 参考スコア(独自算出の注目度): 16.872474334479026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous recent work on unsupervised machine translation (UMT) implies that
competent unsupervised translations of low-resource and unrelated languages,
such as Nepali or Sinhala, are only possible if the model is trained in a
massive multilingual environment, where theses low-resource languages are mixed
with high-resource counterparts. Nonetheless, while the high-resource languages
greatly help kick-start the target low-resource translation tasks, the language
discrepancy between them may hinder their further improvement. In this work, we
propose a simple refinement procedure to disentangle languages from a
pre-trained multilingual UMT model for it to focus on only the target
low-resource task. Our method achieves the state of the art in the fully
unsupervised translation tasks of English to Nepali, Sinhala, Gujarati,
Latvian, Estonian and Kazakh, with BLEU score gains of 3.5, 3.5, 3.3, 4.1, 4.2,
and 3.3, respectively. Our codebase is available at
https://github.com/nxphi47/refine_unsup_multilingual_mt
- Abstract(参考訳): unsupervised machine translation (umt) に関する最近の多くの研究は、ネパール語やシンハラ語のような、低リソース言語や非関連言語の有能な非教師なし翻訳は、モデルが大量の多言語環境で訓練されている場合にのみ可能であることを示唆している。
それでも、高リソース言語は、ターゲットとする低リソース翻訳タスクの起動に大いに役立ちますが、それらの言語間の相違により、さらなる改善が妨げられます。
本研究では,対象とする低リソースタスクのみに焦点を合わせるために,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
本手法は,ネパール語,シンハラ語,グジャラト語,ラトビア語,エストニア語,カザフ語への完全教師なし翻訳タスクにおいて,それぞれ3.5,3.5,3.5,3.3,4.1,4.2,3。
私たちのコードベースはhttps://github.com/nxphi47/refine_unsup_multilingual_mtで利用可能です。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。