論文の概要: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is
Needed?
- arxiv url: http://arxiv.org/abs/2312.12683v1
- Date: Wed, 20 Dec 2023 00:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:13:00.655106
- Title: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is
Needed?
- Title(参考訳): 英語中心のLLMをポリグロットに変える: どのくらいの多言語性が必要か?
- Authors: Tannon Kew, Florian Schottmann, Rico Sennrich
- Abstract要約: 非英語設定で適切なパフォーマンスを達成するためには、言語間転送が重要である。
英語のみの微調整と比較すると、3つの言語での多言語指導はモデルの言語間変換能力を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 45.10397051167781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast majority of today's large language models are English-centric,
having been pretrained predominantly on English text. Yet, in order to meet
user expectations, models need to be able to respond appropriately in multiple
languages once deployed in downstream applications. Given limited exposure to
other languages during pretraining, cross-lingual transfer is important for
achieving decent performance in non-English settings. In this work, we
investigate just how much multilinguality is required during finetuning to
elicit strong cross-lingual generalisation across a range of tasks and target
languages. We find that, compared to English-only finetuning, multilingual
instruction tuning with as few as three languages significantly improves a
model's cross-lingual transfer abilities on generative tasks that assume
input/output language agreement, while being of less importance for highly
structured tasks. Our code and data is available at
https://github.com/ZurichNLP/multilingual-instruction-tuning.
- Abstract(参考訳): 今日の大きな言語モデルの大半は英語中心であり、主に英語のテキストで事前訓練されている。
しかし、ユーザの期待に応えるためには、モデルがダウンストリームアプリケーションにデプロイされた複数の言語で適切に応答できる必要がある。
事前トレーニング中に他言語に限定的に露出することを考えると、非英語設定で適切なパフォーマンスを達成するためには言語間移動が重要である。
本研究では,タスクや対象言語にまたがる強い言語間一般化を実現するための微調整において,多言語性がどの程度必要かを検討する。
英語のみの微調整と比較すると、3つの言語での多言語指導は、入力/出力言語合意を前提とした生成タスクにおけるモデルの言語間変換能力を大幅に改善するが、高度に構造化されたタスクではそれほど重要ではない。
コードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuningで公開しています。
関連論文リスト
- CoCo-CoLa: Evaluating Language Adherence in Multilingual LLMs [1.2057938662974816]
大規模言語モデル(LLM)は、限られた並列データで訓練されているにもかかわらず、言語間能力を開発する。
多言語LLMにおける言語適応性を評価するための新しい指標であるCoCo-CoLaを紹介する。
論文 参考訳(メタデータ) (2025-02-18T03:03:53Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。