論文の概要: Benchmarking Arabic AI with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14982v1
- Date: Wed, 24 May 2023 10:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:15:22.226062
- Title: Benchmarking Arabic AI with Large Language Models
- Title(参考訳): 大規模言語モデルによるアラビア語AIのベンチマーク
- Authors: Ahmed Abdelali, Hamdy Mubarak, Shammur Absar Chowdhury, Maram
Hasanain, Basel Mousi, Sabri Boughorbel, Yassine El Kheir, Daniel Izham,
Fahim Dalvi, Majd Hawasly, Nizi Nazar, Yousseif Elshahawy, Ahmed Ali, Nadir
Durrani, Natasa Milic-Frayling, Firoj Alam
- Abstract要約: 本研究は、標準アラビアNLPおよび音声処理におけるFMの性能を評価することによる継続的な研究に寄与する。
GPT-3.5-turbo、Whisper、USMを使ったゼロショット学習から始まり、59の公開データセットを使用してユニークなタスクに対処します。
いくつかのタスクでは、FMはSOTAモデルと同等かそれ以上の性能を持つが、大多数では性能が劣る。
- 参考スコア(独自算出の注目度): 19.89563007764705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With large Foundation Models (FMs), language technologies (AI in general) are
entering a new paradigm: eliminating the need for developing large-scale
task-specific datasets and supporting a variety of tasks through set-ups
ranging from zero-shot to few-shot learning. However, understanding FMs
capabilities requires a systematic benchmarking effort by comparing FMs
performance with the state-of-the-art (SOTA) task-specific models. With that
goal, past work focused on the English language and included a few efforts with
multiple languages. Our study contributes to ongoing research by evaluating FMs
performance for standard Arabic NLP and Speech processing, including a range of
tasks from sequence tagging to content classification across diverse domains.
We start with zero-shot learning using GPT-3.5-turbo, Whisper, and USM,
addressing 33 unique tasks using 59 publicly available datasets resulting in 96
test setups. For a few tasks, FMs performs on par or exceeds the performance of
the SOTA models but for the majority it under-performs. Given the importance of
prompt for the FMs performance, we discuss our prompt strategies in detail and
elaborate on our findings. Our future work on Arabic AI will explore few-shot
prompting, expand the range of tasks, and investigate additional open-source
models.
- Abstract(参考訳): 大きなファンデーションモデル(FM)によって、言語技術(AI一般)は、大規模なタスク固有のデータセットの開発の必要性を排除し、ゼロショットから少数ショット学習までのセットアップを通じて、さまざまなタスクをサポートするという、新しいパラダイムに入りつつある。
しかし、FMの能力を理解するには、FMのパフォーマンスと最新技術(SOTA)タスク固有のモデルを比較して、体系的なベンチマークを行う必要がある。
その目標を掲げて、過去の作業は英語に焦点を合わせ、複数の言語に関するいくつかの取り組みを含んでいた。
本研究は、アラビア語の標準nlpおよび音声処理におけるfmsの性能を、シーケンスタグ付けから多様な領域にわたるコンテンツ分類まで、様々なタスクを含む評価することで、現在進行中の研究に寄与している。
GPT-3.5-turbo、Whisper、USMを使ったゼロショット学習から始まり、59の公開データセットを使用して33のユニークなタスクに対処し、96のテストセットアップを実現しました。
いくつかのタスクでは、FMはSOTAモデルと同等かそれ以上の性能を持つが、大多数では性能が劣る。
FMs性能の促進の重要性を考慮し,我々の迅速な戦略を詳細に検討し,その結果について詳しく述べる。
アラビアAIに関する今後の研究は、数発のプロンプト、タスクの範囲の拡大、および追加のオープンソースモデルを調査する予定である。
関連論文リスト
- Investigating the translation capabilities of Large Language Models trained on parallel data only [1.5974665548135587]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2024-06-13T14:08:56Z) - Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。
本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。
実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64
Languages [17.055109973224265]
SPARROWは言語間社会プラグマティックな意味(SM)理解に特化して設計された広範囲なベンチマークである。
SPARROWは、6つの主要カテゴリ(例えば、反社会的言語検出、感情認識)にわたる13のタスクタイプをカバーする169のデータセットで構成されている。
本研究では,SPARROWにおける多言語事前訓練型言語モデル(mT5など)と命令調整型LLM(BLOOMZ, ChatGPTなど)の性能を,微調整,ゼロショット,少数ショット学習により評価する。
論文 参考訳(メタデータ) (2023-10-23T04:22:44Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。