論文の概要: To Translate or Not to Translate: A Systematic Investigation of
Translation-Based Cross-Lingual Transfer to Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2311.09404v1
- Date: Wed, 15 Nov 2023 22:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:30.472619
- Title: To Translate or Not to Translate: A Systematic Investigation of
Translation-Based Cross-Lingual Transfer to Low-Resource Languages
- Title(参考訳): 翻訳するか否か:低リソース言語への翻訳に基づく言語間変換の体系的検討
- Authors: Benedikt Ebing and Goran Glava\v{s}
- Abstract要約: 翻訳に基づくアプローチはすべて、ゼロショットXLTを多言語LMで劇的に上回っていることを示す。
MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
- 参考スコア(独自算出の注目度): 3.6532087193417615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Perfect machine translation (MT) would render cross-lingual transfer (XLT) by
means of multilingual language models (LMs) superfluous. Given, on one hand,
the large body of work on improving XLT with multilingual LMs and, on the other
hand, recent advances in massively multilingual MT, in this work, we
systematically evaluate existing and propose new translation-based XLT
approaches for transfer to low-resource languages. We show that all
translation-based approaches dramatically outperform zero-shot XLT with
multilingual LMs, rendering the approach that combines the round-trip
translation of the source-language training data with the translation of the
target-language test instances the most effective. We next show that one can
obtain further empirical gains by adding reliable translations to other
high-resource languages to the training data. Moreover, we propose an effective
translation-based XLT strategy even for languages not supported by the MT
system. Finally, we show that model selection for XLT based on target-language
validation data obtained with MT outperforms model selection based on the
source-language data. We hope that our findings encourage adoption of more
robust translation-based baselines in XLT research.
- Abstract(参考訳): 完全機械翻訳(MT)は多言語言語モデル(LM)によって言語間変換(XLT)を行う。
一方,マルチリンガルな LM を用いた XLT の改良作業が盛んであり,また近年の大規模マルチリンガルな MT の進歩により,既存の言語を体系的に評価し,低リソース言語に移行するための新しい翻訳ベースの XLT アプローチを提案する。
提案手法は,ゼロショットXLTと多言語LMを劇的に上回り,ソース言語学習データのラウンドトリップ翻訳とターゲット言語テストインスタンスの翻訳を併用するアプローチが最も効果的であることを示す。
次に、トレーニングデータに他の高リソース言語に信頼できる翻訳を追加することで、さらなる実証的な成果を得ることができることを示す。
さらに,MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
最後に,MTを用いた対象言語検証データに基づくXLTのモデル選択は,ソースコードデータに基づくモデル選択よりも優れていることを示す。
我々は,XLT研究において,より堅牢な翻訳ベースラインの導入を促進することを願っている。
関連論文リスト
- Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity [19.15213046428148]
クロスランガルトランスファー(XLT)は、微調整プロセスに含まれていない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルである。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
論文 参考訳(メタデータ) (2023-10-26T05:39:49Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation [8.554761233491236]
我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
論文 参考訳(メタデータ) (2020-05-01T10:50:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。