論文の概要: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
- arxiv url: http://arxiv.org/abs/2212.09535v1
- Date: Mon, 19 Dec 2022 15:24:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:26:16.273245
- Title: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
- Title(参考訳): BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加
- Authors: Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri
Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang
Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman,
Dragomir Radev and Vassilina Nikoulina
- Abstract要約: BLOOMモデルは、ゼロショット学習が可能な大規模なオープンソースの多言語言語モデルである。
これまでの研究は、小さな言語モデルへの適応についてのみ検討されてきた。
新たな言語におけるゼロショット性能の向上には,言語適応が有効であると考えられる。
- 参考スコア(独自算出の注目度): 33.85054174256243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The BLOOM model is a large open-source multilingual language model capable of
zero-shot learning, but its pretraining was limited to 46 languages. To improve
its zero-shot performance on unseen languages, it is desirable to adapt BLOOM,
but previous works have only explored adapting small language models. In this
work, we apply existing language adaptation strategies to BLOOM and benchmark
its zero-shot prompting performance on eight new languages. We find language
adaptation to be effective at improving zero-shot performance in new languages.
Surprisingly, adapter-based finetuning is more effective than continued
pretraining for large models. In addition, we discover that prompting
performance is not significantly affected by language specifics, such as the
writing system. It is primarily determined by the size of the language
adaptation data. We also add new languages to BLOOMZ, which is a multitask
finetuned version of BLOOM capable of following task instructions zero-shot. We
find including a new language in the multitask fine-tuning mixture to be the
most effective method to teach BLOOMZ a new language. We conclude that with
sufficient training data language adaptation can generalize well to diverse
languages. Our code is available at
\url{https://github.com/bigscience-workshop/multilingual-modeling/}.
- Abstract(参考訳): BLOOMモデルはゼロショット学習が可能な大規模なオープンソースの多言語言語モデルであるが、事前訓練は46言語に限られていた。
目に見えない言語でのゼロショット性能を改善するため、BLOOMを適応することが望ましいが、以前の研究では小さな言語モデルに適応することしか検討されていない。
本研究では,既存の言語適応戦略をBLOOMに適用し,ゼロショットによる8つの新言語の性能評価を行う。
新たな言語におけるゼロショット性能の向上には,言語適応が有効である。
驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。
また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。
主に言語適応データの大きさによって決定される。
また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。
新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。
十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。
私たちのコードは \url{https://github.com/bigscience-workshop/multilingual-modeling/} で利用可能です。
関連論文リスト
- MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。