論文の概要: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
- arxiv url: http://arxiv.org/abs/2212.09535v2
- Date: Thu, 25 May 2023 10:50:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 23:18:52.428828
- Title: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
- Title(参考訳): BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加
- Authors: Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri
Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang
Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman,
Edward Raff, Dragomir Radev and Vassilina Nikoulina
- Abstract要約: BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
- 参考スコア(独自算出の注目度): 50.24676567971536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The BLOOM model is a large publicly available multilingual language model,
but its pretraining was limited to 46 languages. To extend the benefits of
BLOOM to other languages without incurring prohibitively large costs, it is
desirable to adapt BLOOM to new languages not seen during pretraining. In this
work, we apply existing language adaptation strategies to BLOOM and benchmark
its zero-shot prompting performance on eight new languages in a
resource-constrained setting. We find language adaptation to be effective at
improving zero-shot performance in new languages. Surprisingly, we find that
adapter-based finetuning is more effective than continued pretraining for large
models. In addition, we discover that prompting performance is not
significantly affected by language specifics, such as the writing system. It is
primarily determined by the size of the language adaptation data. We also add
new languages to BLOOMZ, which is a multitask finetuned version of BLOOM
capable of following task instructions zero-shot. We find including a new
language in the multitask fine-tuning mixture to be the most effective method
to teach BLOOMZ a new language. We conclude that with sufficient training data
language adaptation can generalize well to diverse languages. Our code is
available at https://github.com/bigscience-workshop/multilingual-modeling.
- Abstract(参考訳): BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
BLOOMの利点を他言語に拡張するためには,事前学習中に見られない新しい言語にBLOOMを適用することが望ましい。
本研究では,既存の言語適応戦略をBLOOMに適用し,リソース制約条件下で8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
新たな言語におけるゼロショット性能の向上には,言語適応が有効である。
驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。
また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。
主に言語適応データの大きさによって決定される。
また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。
新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。
十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。
私たちのコードはhttps://github.com/bigscience-workshop/multilingual-modelingで利用可能です。
関連論文リスト
- MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。
そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2024-08-21T07:43:49Z) - LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。
継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。
その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文 参考訳(メタデータ) (2024-05-13T13:41:59Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Investigating the Translation Performance of a Large Multilingual
Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。
本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文 参考訳(メタデータ) (2023-03-03T13:23:42Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。