Fugu-MT 論文翻訳(概要): Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability

論文の概要: Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability

arxiv url: http://arxiv.org/abs/2407.00454v2
Date: Tue, 17 Sep 2024 10:04:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 21:41:27.983591
Title: Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability
Title（参考訳）: 自己翻訳トレイン:インジェクタンス能力による大規模言語モデルの言語間移動の促進
Authors: Ryokan Ri, Shun Kiyono, Sho Takase,
Abstract要約: 自己翻訳-トレイン(Self-Translate-Train)は、大規模言語モデルがトレーニングデータをターゲット言語に翻訳し、自身の生成されたデータに基づいてモデルを微調整する手法である。自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。
参考スコア（独自算出の注目度）: 31.025371443719404
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Zero-shot cross-lingual transfer by fine-tuning multilingual pretrained models shows promise for low-resource languages, but often suffers from misalignment of internal representations between languages. We hypothesize that even when the model cannot generalize across languages effectively in fine-tuning, it still captures cross-lingual correspondence useful for cross-lingual transfer. We explore this hypothesis with Self-Translate-Train, a method that lets large language models (LLMs) to translate training data into the target language and fine-tunes the model on its own generated data. By demonstrating that Self-Translate-Train outperforms zero-shot transfer, we encourage further exploration of better methods to elicit cross-lingual capabilities of LLMs.
Abstract（参考訳）: 微調整された多言語事前学習モデルによるゼロショットの言語間移動は低リソース言語を約束するが、しばしば言語間の内部表現の誤調整に悩まされる。モデルが細調整において言語間を効果的に一般化できない場合でも、言語間変換に有用な言語間対応を捕捉する、という仮説を立てる。我々は,この仮説を,大規模言語モデル(LLM)が学習データを対象言語に翻訳し,自身の生成したデータに基づいてモデルを微調整する手法であるSelf-Translate-Trainを用いて検討する。自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。

関連論文リスト

Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文参考訳（メタデータ） (2023-09-19T19:30:56Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings [10.871587311621974]
我々は、ゼロショット設定に適用された高容量多言語言語モデルが、データベースのクロスランガルトランスファーアプローチより一貫して優れていることを実験的に実証した。この結果の詳細な分析は、言語使用における重要な違いによる可能性があることを示唆している。また,高容量多言語言語モデルが利用できない場合,データに基づく多言語間移動アプローチが競争力のある選択肢であることも示唆した。
論文参考訳（メタデータ） (2022-10-23T05:37:35Z)
A Simple and Effective Method to Improve Zero-Shot Cross-Lingual Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文参考訳（メタデータ） (2022-10-18T15:36:53Z)
Language Contamination Explains the Cross-lingual Capabilities of English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。これにより、大規模なデータセットで数十億の外国語トークンが生成される。そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文参考訳（メタデータ） (2022-04-17T23:56:54Z)
Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文参考訳（メタデータ） (2021-07-27T06:51:13Z)
MergeDistill: Merging Pre-trained Language Models using Distillation [5.396915402673246]
我々は、最小限の依存関係で彼らの資産を最大限に活用できる方法で、事前訓練されたLMをマージするフレームワークであるMergeDistillを提案する。我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。
論文参考訳（メタデータ） (2021-06-05T08:22:05Z)
Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer [33.680292990007366]
本稿では,埋め込みの整合性を向上し,ゼロショットの言語間転送性能を向上させることを目的とする。本稿では,従来の知識として統計アライメント情報を用いて,バイリンガル単語予測を導出するアライメント言語モデル(Alignment Language Model, AlignLM)を提案する。その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。
論文参考訳（メタデータ） (2021-06-03T10:18:43Z)
Improving the Lexical Ability of Pretrained Language Models for Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。これまでの研究では、これは表現が十分に整合していないためです。本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文参考訳（メタデータ） (2021-03-18T21:17:58Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。