Fugu-MT 論文翻訳(概要): BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting

論文の概要: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting

arxiv url: http://arxiv.org/abs/2212.09535v1
Date: Mon, 19 Dec 2022 15:24:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:26:16.273245
Title: BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting
Title（参考訳）: BLOOM+1:ゼロショットプロンプトのためのBLOOMに言語サポートを追加
Authors: Zheng-Xin Yong, Hailey Schoelkopf, Niklas Muennighoff, Alham Fikri Aji, David Ifeoluwa Adelani, Khalid Almubarak, M Saiful Bari, Lintang Sutawika, Jungo Kasai, Ahmed Baruwa, Genta Indra Winata, Stella Biderman, Dragomir Radev and Vassilina Nikoulina
Abstract要約: BLOOMモデルは、ゼロショット学習が可能な大規模なオープンソースの多言語言語モデルである。これまでの研究は、小さな言語モデルへの適応についてのみ検討されてきた。新たな言語におけるゼロショット性能の向上には,言語適応が有効であると考えられる。
参考スコア（独自算出の注目度）: 33.85054174256243
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The BLOOM model is a large open-source multilingual language model capable of zero-shot learning, but its pretraining was limited to 46 languages. To improve its zero-shot performance on unseen languages, it is desirable to adapt BLOOM, but previous works have only explored adapting small language models. In this work, we apply existing language adaptation strategies to BLOOM and benchmark its zero-shot prompting performance on eight new languages. We find language adaptation to be effective at improving zero-shot performance in new languages. Surprisingly, adapter-based finetuning is more effective than continued pretraining for large models. In addition, we discover that prompting performance is not significantly affected by language specifics, such as the writing system. It is primarily determined by the size of the language adaptation data. We also add new languages to BLOOMZ, which is a multitask finetuned version of BLOOM capable of following task instructions zero-shot. We find including a new language in the multitask fine-tuning mixture to be the most effective method to teach BLOOMZ a new language. We conclude that with sufficient training data language adaptation can generalize well to diverse languages. Our code is available at \url{https://github.com/bigscience-workshop/multilingual-modeling/}.
Abstract（参考訳）: BLOOMモデルはゼロショット学習が可能な大規模なオープンソースの多言語言語モデルであるが、事前訓練は46言語に限られていた。目に見えない言語でのゼロショット性能を改善するため、BLOOMを適応することが望ましいが、以前の研究では小さな言語モデルに適応することしか検討されていない。本研究では,既存の言語適応戦略をBLOOMに適用し,ゼロショットによる8つの新言語の性能評価を行う。新たな言語におけるゼロショット性能の向上には,言語適応が有効である。驚いたことに、アダプタベースの微調整は、大型モデルの事前訓練よりも効果的である。また,書記システムなどの言語特化によって,性能の促進が大きな影響を受けないことが判明した。主に言語適応データの大きさによって決定される。また,タスク命令をゼロショットで追従するBLOOMのマルチタスク微調整版であるBLOOMZに新たな言語を追加する。新しい言語をマルチタスクの微調整混合物に含めることで、bloomzに新しい言語を教える最も効果的な方法を見出した。十分なトレーニングによって、データ言語適応は多様な言語にうまく一般化できると結論づけた。私たちのコードは \url{https://github.com/bigscience-workshop/multilingual-modeling/} で利用可能です。

関連論文リスト

MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing [78.62611800987817]
大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。そこで本稿では,MoE-LPR (Mixture-of-Experts with Language Priors) と呼ばれる手法を提案する。
論文参考訳（メタデータ） (2024-08-21T07:43:49Z)
LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language [2.9914612342004503]
本研究は、主に英語で訓練された大規模な言語モデルを低リソース言語に適応させることにより、代替的な解決策を探求する。継続訓練,命令細調整,タスク特化細調整,語彙拡張など,さまざまな戦略を評価する。その結果、継続学習は、難易度スコアに反映されるような言語理解を向上し、タスク固有のチューニングは、一般的に下流タスクのパフォーマンスを向上することを示した。
論文参考訳（メタデータ） (2024-05-13T13:41:59Z)
Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文参考訳（メタデータ） (2023-06-13T08:08:08Z)
InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。 InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文参考訳（メタデータ） (2023-05-23T02:51:34Z)
Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM [8.858671209228536]
複数のデータセットにまたがる機械翻訳性能を評価することで,BLOOMの多言語能力に着目する。本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。
論文参考訳（メタデータ） (2023-03-03T13:23:42Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文参考訳（メタデータ） (2021-10-20T10:38:57Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。