論文の概要: Zero-shot cross-lingual transfer in instruction tuning of large language models
- arxiv url: http://arxiv.org/abs/2402.14778v2
- Date: Mon, 22 Apr 2024 10:44:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 23:34:03.548108
- Title: Zero-shot cross-lingual transfer in instruction tuning of large language models
- Title(参考訳): 大規模言語モデルの命令チューニングにおけるゼロショット言語間移動
- Authors: Nadezhda Chirkova, Vassilina Nikoulina,
- Abstract要約: 我々は、LLMを英語のみのデータで指導し、他の言語でユーザプロンプトでテストする場合、ITにおけるゼロショットの言語間移動について研究する。
モデルトレーニングのすべての段階が英語中心であっても、ITにおいて言語間の移行が成功していることが分かっています。
英語で訓練されたLLMは、他の言語で正しい言語、包括的で有用な応答を生成することができるが、事実性が低いため、時々流布エラーが発生することがある。
- 参考スコア(独自算出の注目度): 22.93790760274486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning (IT) is widely used to teach pretrained large language models (LLMs) to follow arbitrary instructions, but is under-studied in multilingual settings. In this work, we conduct a systematic study of zero-shot cross-lingual transfer in IT, when an LLM is instruction-tuned on English-only data and then tested on user prompts in other languages. We advocate for the importance of evaluating various aspects of model responses in multilingual instruction following and investigate the influence of different model configuration choices. We find that cross-lingual transfer does happen successfully in IT even if all stages of model training are English-centric, but only if multiliguality is taken into account in hyperparameter tuning and with large enough IT data. English-trained LLMs are capable of generating correct-language, comprehensive and helpful responses in other languages, but suffer from low factuality and may occasionally have fluency errors.
- Abstract(参考訳): インストラクションチューニング(IT)は、任意の命令に従うために事前訓練された大規模言語モデル(LLM)を教えるために広く使われているが、多言語設定では過小評価されている。
本研究では,LLMを英語のみのデータに基づいて指導し,他の言語でユーザプロンプトでテストする場合に,ITにおけるゼロショット言語間移動の体系的研究を行う。
我々は,多言語指導におけるモデル応答の様々な側面を評価することの重要性を提唱し,異なるモデル構成選択の影響について検討する。
モデルトレーニングのすべての段階が英語中心であっても、ITにおいて言語間の移動は成功しますが、ハイパーパラメータチューニングと十分なITデータによって、多言語性が考慮される場合のみです。
英語で訓練されたLLMは、他の言語で正しい言語、包括的で有用な応答を生成することができるが、事実性が低いため、時々流布エラーが発生することがある。
関連論文リスト
- Self-Translate-Train: Enhancing Cross-Lingual Transfer of Large Language Models via Inherent Capability [31.025371443719404]
自己翻訳-トレイン(Self-Translate-Train)は、大規模言語モデルがトレーニングデータをターゲット言語に翻訳し、自身の生成されたデータに基づいてモデルを微調整する手法である。
自己翻訳-トレインがゼロショット転送より優れていることを示すことによって、LLMの言語間機能を引き出すためのより良い手法のさらなる探索を奨励する。
論文 参考訳(メタデータ) (2024-06-29T14:40:23Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Cross-Lingual Unlearning of Selective Knowledge in Multilingual Language Models [38.10962690551031]
事前訓練された言語モデルは、プライベートデータや著作権データを含む膨大な量の情報を記憶し、重大な安全上の懸念を提起する。
センシティブなデータを除いた後、これらのモデルをリトレーニングすることは違法に高価であり、機械学習は実用的で費用対効果の高い代替手段となる。
本稿では,多言語モデルにおける機械学習の先駆的アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-18T07:40:18Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning [14.02101305717738]
多言語大言語モデル(MLLM)は、多くの異なる言語からのデータに基づいて共同で訓練される。
言語がどの程度、どの条件下で、互いのデータに依存しているかは、まだ不明である。
MLLMは、細調整の初期段階から複数の言語からのデータに依存しており、細調整の進行に伴って、この依存度が徐々に増加することが判明した。
論文 参考訳(メタデータ) (2023-05-22T17:47:41Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。