論文の概要: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?
- arxiv url: http://arxiv.org/abs/2312.12683v2
- Date: Thu, 03 Oct 2024 17:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:40.506666
- Title: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?
- Title(参考訳): 英語中心のLLMをポリグロットに変える: どのくらいの多言語性が必要なのか?
- Authors: Tannon Kew, Florian Schottmann, Rico Sennrich,
- Abstract要約: 英語中心の大規模言語モデルにおいて,多言語間の一般化を実現するために必要な最小限の多言語性について検討する。
複数言語から3言語までの多言語命令チューニングは,効果的な言語間一般化を実現するのに必要かつ十分であることがわかった。
- 参考スコア(独自算出の注目度): 40.13166574854085
- License:
- Abstract: The vast majority of today's large language models (LLMs) are English-centric, having been pretrained predominantly on English text. Yet, in order to meet user expectations, models need to be able to respond appropriately in multiple languages once deployed in downstream applications. This requires strong cross-lingual transfer abilities. In this work, we investigate the minimal amount of multilinguality required during finetuning to elicit cross-lingual generalisation in English-centric LLMs. In experiments across four LLMs, we find that multilingual instruction tuning with as few as two to three languages is both necessary and sufficient to elicit effective cross-lingual generalisation, with the limiting factor being the degree to which a target language is seen during pretraining. Evaluations on five different tasks further reveal that multilingual instruction tuning is most beneficial for generative tasks that assume input/output language agreement, such as in chat settings, while being of less importance for highly structured classification-style tasks. Our code and data is available at https://github.com/ZurichNLP/multilingual-instruction-tuning.
- Abstract(参考訳): 現在の大きな言語モデル(LLM)の大部分は英語中心であり、主に英語のテキストに基づいて事前訓練されている。
しかし、ユーザの期待に応えるためには、モデルがダウンストリームアプリケーションにデプロイされた複数の言語で適切に応答できる必要がある。
これは強い言語間移動能力を必要とする。
本研究では,英語中心のLLMにおける言語間一般化を実現するために,微調整時に必要となる多言語性の最小限の量について検討する。
4 つの LLM 実験において,2 から 3 つの言語での多言語命令のチューニングは,実効的な言語間一般化を実現するのに必要かつ十分であり,その制限要因は,事前学習中に対象言語を見る度合いである。
5つの異なるタスクの評価により、多言語命令チューニングは、チャット設定などの入力/出力言語合意を前提とした生成タスクにおいて最も有用であるが、高度に構造化された分類スタイルのタスクでは重要でないことが明らかとなった。
コードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuningで公開しています。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - How Vocabulary Sharing Facilitates Multilingualism in LLaMA? [19.136382859468693]
大きな言語モデル(LLM)は英語のタスクに強いパフォーマンスを示すが、他の言語には制限がある。
本研究では,語彙共有の観点からLLMの多言語的能力について検討する。
論文 参考訳(メタデータ) (2023-11-15T16:13:14Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。