論文の概要: mGPT: Few-Shot Learners Go Multilingual
- arxiv url: http://arxiv.org/abs/2204.07580v1
- Date: Fri, 15 Apr 2022 13:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 08:12:05.963763
- Title: mGPT: Few-Shot Learners Go Multilingual
- Title(参考訳): mGPT: 初心者の学習者が多言語化
- Authors: Oleh Shliazhko, Alena Fenogenova, Maria Tikhonova, Vladislav
Mikhailov, Anastasia Kozlova, Tatiana Shavrina
- Abstract要約: 本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 1.5104125489322384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies report that autoregressive language models can successfully
solve many NLP tasks via zero- and few-shot learning paradigms, which opens up
new possibilities for using the pre-trained language models. This paper
introduces two autoregressive GPT-like models with 1.3 billion and 13 billion
parameters trained on 60 languages from 25 language families using Wikipedia
and Colossal Clean Crawled Corpus. We reproduce the GPT-3 architecture using
GPT-2 sources and the sparse attention mechanism; Deepspeed and Megatron
frameworks allow us to parallelize the training and inference steps
effectively. The resulting models show performance on par with the recently
released XGLM models by Facebook, covering more languages and enhancing NLP
possibilities for low resource languages of CIS countries and Russian small
nations. We detail the motivation for the choices of the architecture design,
thoroughly describe the data preparation pipeline, and train five small
versions of the model to choose the most optimal multilingual tokenization
strategy. We measure the model perplexity in all covered languages and evaluate
it on the wide spectre of multilingual tasks, including classification,
generative, sequence labeling and knowledge probing. The models were evaluated
with the zero-shot and few-shot methods. Furthermore, we compared the
classification tasks with the state-of-the-art multilingual model XGLM. source
code and the mGPT XL model are publicly released.
- Abstract(参考訳): 近年の研究では、自己回帰言語モデルがゼロおよび少数ショット学習パラダイムによって多くのNLPタスクをうまく解決できることが報告されている。
本稿では,WikipediaとColossal Clean Crawled Corpusを用いて,25言語ファミリーの60言語に対して13億,13億のパラメータをトレーニングした2つの自己回帰GPT様モデルを紹介する。
我々は、GPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現し、DeepspeedおよびMegatronフレームワークにより、トレーニングと推論のステップを効果的に並列化することができる。
結果として得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示し、より多くの言語をカバーし、CIS諸国やロシアの小国の低リソース言語に対するNLPの可能性を高める。
アーキテクチャ設計の選択動機を詳述し、データ準備パイプラインを徹底的に記述し、最も最適な多言語トークン化戦略を選択するためにモデルの5つの小さなバージョンを訓練する。
全被覆言語におけるモデルのパープレキシティを測定し、分類、生成、シーケンスラベリング、知識探索を含む多言語タスクの幅広い分析に基づいて評価する。
モデルはゼロショット法と少数ショット法で評価された。
さらに,その分類タスクを,最先端の多言語モデルXGLMと比較した。
ソースコードとmGPT XLモデルが公開されている。
関連論文リスト
- From N-grams to Pre-trained Multilingual Models For Language Identification [0.35760345713831954]
南アフリカの11言語を対象として,N-gramモデルとLarge-trained Multilingual Model for Language Identification (LID)について検討した。
N-gramモデルでは、対象言語の効果的な周波数分布を確立するためには、有効なデータサイズ選択が不可欠であることを示す。
我々は,SerengetiがN-gramsからTransformerに平均して優れたモデルであることを示す。
論文 参考訳(メタデータ) (2024-10-11T11:35:57Z) - Generative Model for Less-Resourced Language with 1 billion parameters [0.0]
GaMS 1B - 10億のパラメータを持つスロベニアの生成モデル。
我々はスロベニア語、クロアチア語、英語に適応した新しいトークンライザを開発した。
我々は,Slovene ベンチマークスイートと生成文単純化タスク SENTA から,いくつかの分類データセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-10-09T13:59:34Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - Bidirectional Language Models Are Also Few-shot Learners [54.37445173284831]
SAP(Sequential Autoregressive Prompting)は,双方向モデルの高速化を実現する技術である。
SAPは質問応答と要約に有効であることを示す。
この結果から,より広範な言語モデルの創発的特性として,プロンプトに基づく学習が証明された。
論文 参考訳(メタデータ) (2022-09-29T01:35:57Z) - Cross-Lingual Text Classification with Multilingual Distillation and
Zero-Shot-Aware Training [21.934439663979663]
多言語事前学習言語モデル(MPLM)に基づくマルチブランチ多言語言語モデル(MBLM)
教師学習フレームワークを用いた高性能単言語モデルからの知識の伝達に基づく方法
2つの言語横断型分類タスクの結果から,MPLMの教師付きデータのみを用いることで,教師付き性能とゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2022-02-28T09:51:32Z) - Cedille: A large autoregressive French language model [0.21756081703276003]
私たちはCedilleを紹介します。Cedilleは大規模なオープンソースの自動回帰言語モデルで、特にフランス語のために訓練されています。
以上の結果から,Cedille は既存のフランス語モデルより優れており,GPT-3 と競合する。
論文 参考訳(メタデータ) (2022-02-07T17:40:43Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Structure-Level Knowledge Distillation For Multilingual Sequence
Labeling [73.40368222437912]
本稿では,複数の単言語モデルの構造的知識を統一多言語モデル(学生)に蒸留することにより,単言語モデルと統一多言語モデルとのギャップを低減することを提案する。
25のデータセットを用いた4つの多言語タスクの実験により、我々のアプローチはいくつかの強いベースラインを上回り、ベースラインモデルと教師モデルの両方よりも強力なゼロショット一般化性を有することが示された。
論文 参考訳(メタデータ) (2020-04-08T07:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。