論文の概要: Few-shot Learning with Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2112.10668v1
- Date: Mon, 20 Dec 2021 16:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 16:15:53.672578
- Title: Few-shot Learning with Multilingual Language Models
- Title(参考訳): 多言語モデルを用いたマイナショット学習
- Authors: Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui
Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du,
Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian
O'Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin
Stoyanov, Xian Li
- Abstract要約: 多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
- 参考スコア(独自算出の注目度): 66.49496434282564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale autoregressive language models such as GPT-3 are few-shot
learners that can perform a wide range of language tasks without fine-tuning.
While these models are known to be able to jointly represent many different
languages, their training data is dominated by English, potentially limiting
their cross-lingual generalization. In this work, we train multilingual
autoregressive language models on a balanced corpus covering a diverse set of
languages, and study their few- and zero-shot learning capabilities in a wide
range of tasks. Our largest model with 7.5 billion parameters sets new state of
the art in few-shot learning in more than 20 representative languages,
outperforming GPT-3 of comparable size in multilingual commonsense reasoning
(with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in
4-shot settings) and natural language inference (+5.4% in each of 0-shot and
4-shot settings). On the FLORES-101 machine translation benchmark, our model
outperforms GPT-3 on 171 out of 182 translation directions with 32 training
examples, while surpassing the official supervised baseline in 45 directions.
We present a detailed analysis of where the model succeeds and fails, showing
in particular that it enables cross-lingual in-context learning on some tasks,
while there is still room for improvement on surface form robustness and
adaptation to tasks that do not have a natural cloze form. Finally, we evaluate
our models in social value tasks such as hate speech detection in five
languages and find it has limitations similar to comparable sized GPT-3 models.
- Abstract(参考訳): GPT-3のような大規模自己回帰型言語モデルは、微調整なしで幅広い言語タスクを実行できる少数の学習者である。
これらのモデルは、多くの異なる言語を共同表現できることが知られているが、トレーニングデータは英語に支配されており、言語間の一般化を制限する可能性がある。
本研究は,多言語自己回帰型言語モデルを,多様な言語セットをカバーするバランスのとれたコーパス上で訓練し,その少数・ゼロショット学習能力を幅広いタスクで検討する。
750億のパラメータを持つ私たちの最大のモデルでは、20以上の代表的な言語で少数ショット学習の新しい状態を設定し、多言語共通認識推論(0ショット設定では+7.4%、4ショット設定では+9.4%)と自然言語推論(0ショットと4ショット設定では+5.4%)で同等の大きさのgpt-3を上回っています。
FLORES-101 機械翻訳ベンチマークでは,本モデルが 182 の翻訳方向のうち 171 において GPT-3 を上回り,32 の訓練例が45 の指示基準線を上回り,GPT-3 よりも優れていた。
本稿では,モデルの成功と失敗の詳細な分析について述べる。特に,表層形状のロバスト性や自然なクローズ形式を持たないタスクへの適応性の改善の余地がある一方で,言語横断的インコンテキスト学習が可能となることを示す。
最後に,5言語でのヘイトスピーチ検出などの社会的価値タスクにおけるモデルの評価を行い,これと同等の大きさのGPT-3モデルに類似した制限があることを見出した。
関連論文リスト
- BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z) - On the Multilingual Capabilities of Very Large-Scale English Language
Models [0.0]
GPT(Generative Pre-trained Transformer)は、機械学習の歴史において、前例のない規模に拡張されている。
本研究では,GPT-3の多言語的スキルについて検討し,事前学習用コーパスであるカタルーニャ語にはほとんど現れない1つの言語に着目した。
このモデルでは、特に生成タスクにおいて、主に言語理解タスクでは予測可能な制限があるが、ゼロショットシナリオでは顕著な結果が得られる。
論文 参考訳(メタデータ) (2021-08-30T16:18:50Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。