論文の概要: JASMINE: Arabic GPT Models for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2212.10755v1
- Date: Wed, 21 Dec 2022 04:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:36:27.681618
- Title: JASMINE: Arabic GPT Models for Few-Shot Learning
- Title(参考訳): JASMINE:Few-Shot LearningのためのアラビアGPTモデル
- Authors: El Moatez Billah Nagoudi, Muhammad Abdul-Mageed, AbdelRahim Elmadany,
Alcides Alcoba Inciarte, Md Tawkat Islam Khondaker
- Abstract要約: タスク生成事前学習(GPT)は、最近ゼロショットと少数ショットの学習に有望であることが証明された。
我々は,3億~13億のパラメータのサイズにまたがる,強力なアラビア語の自動回帰トランスフォーマー言語モデルを提示する。
ゼロショット学習と少数ショット学習の総合的なベンチマークを用いて,本モデルの有効性を内在的および外在的の両方で評価した。
- 参考スコア(独自算出の注目度): 7.279730418361996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task agnostic generative pretraining (GPT) has recently proved promising for
zero- and few-shot learning, gradually diverting attention from the expensive
supervised learning paradigm. Although the community is accumulating knowledge
as to capabilities of English-language autoregressive models such as GPT-3
adopting this generative approach, scholarship about these models remains
acutely Anglocentric. Consequently, the community currently has serious gaps in
its understanding of this class of models, their potential, and their societal
impacts in diverse settings, linguistic traditions, and cultures. To alleviate
this issue for Arabic, a collection of diverse languages and language varieties
with more than $400$ million population, we introduce JASMINE, a suite of
powerful Arabic autoregressive Transformer language models ranging in size
between 300 million-13 billion parameters. We pretrain our new models with
large amounts of diverse data (400GB of text) from different Arabic varieties
and domains. We evaluate JASMINE extensively in both intrinsic and extrinsic
settings, using a comprehensive benchmark for zero- and few-shot learning
across a wide range of NLP tasks. We also carefully develop and release a novel
benchmark for both automated and human evaluation of Arabic autoregressive
models focused at investigating potential social biases, harms, and toxicity in
these models. We aim to responsibly release our models with interested
researchers, along with code for experimenting with them
- Abstract(参考訳): GPT(Task Agnostic Generative Pretraining)は、最近ゼロと少数ショットの学習に有望であることが証明された。
コミュニティは、GPT-3のような英語の自己回帰モデルの能力に関する知識を蓄積しているが、これらのモデルに関する奨学金は、鋭くアングロセントリックなままである。
その結果、コミュニティは現在、この種のモデル、その可能性、そして様々な設定、言語伝統、文化における社会的影響に対する理解に深刻なギャップがある。
4億ドル以上の人口を抱える多種多様な言語と言語品種のコレクションであるアラビア語のこの問題を軽減するため、我々は3億から13億のパラメーターからなる強力なアラビア語の自動回帰変換言語モデルのスイートであるJASMINEを紹介した。
我々は、アラビアの異なる品種やドメインから大量の多様なデータ(400GBのテキスト)で新しいモデルを事前訓練する。
我々は,JASMINEを内在的および外在的の両方で広範囲に評価し,広範囲なNLPタスクを対象としたゼロおよび少数ショット学習のための総合的ベンチマークを用いた。
また,これらのモデルにおける潜在的な社会的バイアス,有害性,毒性の調査に焦点をあてた,アラビア語自己回帰モデルの自動評価と人間評価のための新しいベンチマークを慎重に開発し,公開する。
興味のある研究者と実験するためのコードとともに、我々のモデルを責任を持ってリリースすることを目指している。
関連論文リスト
- ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - To Distill or Not to Distill? On the Robustness of Robust Knowledge Distillation [16.655022975392992]
現在の多言語ASRモデルは計算集約的であり、適切な総合的な評価を欠いている。
我々は、大きな教師モデルからより効率的なより小さな学生の変種に知識を蒸留する。
最もよく蒸留されたモデル全体の性能(45.0$% WER)は、SoTAモデルの2倍の大きさである。
論文 参考訳(メタデータ) (2024-06-06T21:11:53Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Revisiting Pre-trained Language Models and their Evaluation for Arabic
Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。
文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。
我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-21T22:38:19Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。