論文の概要: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is
Needed?
- arxiv url: http://arxiv.org/abs/2312.12683v1
- Date: Wed, 20 Dec 2023 00:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:13:00.655106
- Title: Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is
Needed?
- Title(参考訳): 英語中心のLLMをポリグロットに変える: どのくらいの多言語性が必要か?
- Authors: Tannon Kew, Florian Schottmann, Rico Sennrich
- Abstract要約: 非英語設定で適切なパフォーマンスを達成するためには、言語間転送が重要である。
英語のみの微調整と比較すると、3つの言語での多言語指導はモデルの言語間変換能力を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 45.10397051167781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast majority of today's large language models are English-centric,
having been pretrained predominantly on English text. Yet, in order to meet
user expectations, models need to be able to respond appropriately in multiple
languages once deployed in downstream applications. Given limited exposure to
other languages during pretraining, cross-lingual transfer is important for
achieving decent performance in non-English settings. In this work, we
investigate just how much multilinguality is required during finetuning to
elicit strong cross-lingual generalisation across a range of tasks and target
languages. We find that, compared to English-only finetuning, multilingual
instruction tuning with as few as three languages significantly improves a
model's cross-lingual transfer abilities on generative tasks that assume
input/output language agreement, while being of less importance for highly
structured tasks. Our code and data is available at
https://github.com/ZurichNLP/multilingual-instruction-tuning.
- Abstract(参考訳): 今日の大きな言語モデルの大半は英語中心であり、主に英語のテキストで事前訓練されている。
しかし、ユーザの期待に応えるためには、モデルがダウンストリームアプリケーションにデプロイされた複数の言語で適切に応答できる必要がある。
事前トレーニング中に他言語に限定的に露出することを考えると、非英語設定で適切なパフォーマンスを達成するためには言語間移動が重要である。
本研究では,タスクや対象言語にまたがる強い言語間一般化を実現するための微調整において,多言語性がどの程度必要かを検討する。
英語のみの微調整と比較すると、3つの言語での多言語指導は、入力/出力言語合意を前提とした生成タスクにおけるモデルの言語間変換能力を大幅に改善するが、高度に構造化されたタスクではそれほど重要ではない。
コードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuningで公開しています。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Multilingual Language Model Adaptive Fine-Tuning: A Study on African
Languages [19.067718464786463]
我々は、アフリカ大陸で広く話されている17の最もリソースの多いアフリカ言語と他の3つの高リソース言語に対して、多言語適応微調整(MAFT)を行う。
多言語 PLM をさらに専門化するため,MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去した。
当社のアプローチでは,LAFTを個々の言語に適用する上で,ディスクスペースを大幅に削減する。
論文 参考訳(メタデータ) (2022-04-13T16:13:49Z) - When Being Unseen from mBERT is just the Beginning: Handling New
Languages With Multilingual Language Models [2.457872341625575]
大量の生データに基づく事前学習言語モデルに基づく伝達学習は,NLPの最先端性能に到達するための新しい規範となっている。
このようなモデルは、目に見えない言語に対して複数の方法で振る舞うことを示す。
論文 参考訳(メタデータ) (2020-10-24T10:15:03Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。