論文の概要: To Translate or Not to Translate: A Systematic Investigation of
Translation-Based Cross-Lingual Transfer to Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2311.09404v1
- Date: Wed, 15 Nov 2023 22:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:29:30.472619
- Title: To Translate or Not to Translate: A Systematic Investigation of
Translation-Based Cross-Lingual Transfer to Low-Resource Languages
- Title(参考訳): 翻訳するか否か:低リソース言語への翻訳に基づく言語間変換の体系的検討
- Authors: Benedikt Ebing and Goran Glava\v{s}
- Abstract要約: 翻訳に基づくアプローチはすべて、ゼロショットXLTを多言語LMで劇的に上回っていることを示す。
MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
- 参考スコア(独自算出の注目度): 3.6532087193417615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Perfect machine translation (MT) would render cross-lingual transfer (XLT) by
means of multilingual language models (LMs) superfluous. Given, on one hand,
the large body of work on improving XLT with multilingual LMs and, on the other
hand, recent advances in massively multilingual MT, in this work, we
systematically evaluate existing and propose new translation-based XLT
approaches for transfer to low-resource languages. We show that all
translation-based approaches dramatically outperform zero-shot XLT with
multilingual LMs, rendering the approach that combines the round-trip
translation of the source-language training data with the translation of the
target-language test instances the most effective. We next show that one can
obtain further empirical gains by adding reliable translations to other
high-resource languages to the training data. Moreover, we propose an effective
translation-based XLT strategy even for languages not supported by the MT
system. Finally, we show that model selection for XLT based on target-language
validation data obtained with MT outperforms model selection based on the
source-language data. We hope that our findings encourage adoption of more
robust translation-based baselines in XLT research.
- Abstract(参考訳): 完全機械翻訳(MT)は多言語言語モデル(LM)によって言語間変換(XLT)を行う。
一方,マルチリンガルな LM を用いた XLT の改良作業が盛んであり,また近年の大規模マルチリンガルな MT の進歩により,既存の言語を体系的に評価し,低リソース言語に移行するための新しい翻訳ベースの XLT アプローチを提案する。
提案手法は,ゼロショットXLTと多言語LMを劇的に上回り,ソース言語学習データのラウンドトリップ翻訳とターゲット言語テストインスタンスの翻訳を併用するアプローチが最も効果的であることを示す。
次に、トレーニングデータに他の高リソース言語に信頼できる翻訳を追加することで、さらなる実証的な成果を得ることができることを示す。
さらに,MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
最後に,MTを用いた対象言語検証データに基づくXLTのモデル選択は,ソースコードデータに基づくモデル選択よりも優れていることを示す。
我々は,XLT研究において,より堅牢な翻訳ベースラインの導入を促進することを願っている。
関連論文リスト
- A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Analysis of Multi-Source Language Training in Cross-Lingual Transfer [7.502181596175308]
言語間移動(XLT)法はこのデータ不足問題に対処するのに寄与している。
XLT(Multi-Source Language Training (MSLT)-leads)と呼ばれる手法における複数のソース言語の使用により、異なる言語に対する埋め込み空間のミキシングが増加することを示す。
一方,任意の組み合わせのソース言語を使用することで,性能が常に向上するとは限らないことが判明した。
論文 参考訳(メタデータ) (2024-02-21T06:37:07Z) - X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity [19.15213046428148]
クロスランガルトランスファー(XLT)は、微調整プロセスに含まれていない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルである。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
論文 参考訳(メタデータ) (2023-10-26T05:39:49Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Multilingual Bidirectional Unsupervised Translation Through Multilingual
Finetuning and Back-Translation [23.401781865904386]
本研究では,NMTモデルをトレーニングし,未知の言語を英語と英語の両方に翻訳する2段階のアプローチを提案する。
最初の段階では、事前訓練されたXLM-RおよびRoBERTa重みにエンコーダデコーダモデルを初期化し、40言語で並列データに対して多言語微調整を行う。
第2段階では、この一般化機能を活用して、単言語データセットから合成並列データを生成し、その後、連続した後方翻訳ラウンドで双方向に訓練する。
論文 参考訳(メタデータ) (2022-09-06T21:20:41Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - MetaXL: Meta Representation Transformation for Low-resource
Cross-lingual Learning [91.5426763812547]
言語間移動学習は低リソース言語のための機能的NLPシステムを構築するための最も効果的な方法の1つである。
MetaXLは、メタラーニングベースのフレームワークで、表現を補助言語からターゲット言語にジャッジに変換することを学ぶ。
論文 参考訳(メタデータ) (2021-04-16T06:15:52Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。