論文の概要: LAraBench: Benchmarking Arabic AI with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14982v2
- Date: Mon, 5 Feb 2024 07:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:30:09.387179
- Title: LAraBench: Benchmarking Arabic AI with Large Language Models
- Title(参考訳): LAraBench: 大規模言語モデルによるアラビアAIのベンチマーク
- Authors: Ahmed Abdelali, Hamdy Mubarak, Shammur Absar Chowdhury, Maram
Hasanain, Basel Mousi, Sabri Boughorbel, Yassine El Kheir, Daniel Izham,
Fahim Dalvi, Majd Hawasly, Nizi Nazar, Yousseif Elshahawy, Ahmed Ali, Nadir
Durrani, Natasa Milic-Frayling, Firoj Alam
- Abstract要約: LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
- 参考スコア(独自算出の注目度): 26.249084464525044
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly
influenced the landscape of language and speech research. Despite this
progress, these models lack specific benchmarking against state-of-the-art
(SOTA) models tailored to particular languages and tasks. LAraBench addresses
this gap for Arabic Natural Language Processing (NLP) and Speech Processing
tasks, including sequence tagging and content classification across different
domains. We utilized models such as GPT-3.5-turbo, GPT-4, BLOOMZ,
Jais-13b-chat, Whisper, and USM, employing zero and few-shot learning
techniques to tackle 33 distinct tasks across 61 publicly available datasets.
This involved 98 experimental setups, encompassing ~296K data points, ~46 hours
of speech, and 30 sentences for Text-to-Speech (TTS). This effort resulted in
330+ sets of experiments. Our analysis focused on measuring the performance gap
between SOTA models and LLMs. The overarching trend observed was that SOTA
models generally outperformed LLMs in zero-shot learning, with a few
exceptions. Notably, larger computational models with few-shot learning
techniques managed to reduce these performance gaps. Our findings provide
valuable insights into the applicability of LLMs for Arabic NLP and speech
processing tasks.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩は、言語研究や音声研究の風景に大きな影響を与えている。
この進歩にもかかわらず、これらのモデルは特定の言語やタスクに適した最新技術(SOTA)モデルに対する特定のベンチマークを欠いている。
larabench氏は、アラビア語自然言語処理(nlp)と音声処理タスクにおけるこのギャップに対処している。
gpt-3.5-turbo,gpt-4,bloomz,jais-13b-chat,whisper,usmなどのモデルを用いて,61の公開データセットにまたがる33の異なるタスクに取り組むためのゼロショットとマイショットの学習技術を用いた。
これには98の実験的なセットアップが含まれ、約296Kのデータポイント、約46時間スピーチ、テキスト音声(TTS)30文が含まれていた。
この試みにより330以上の実験が行われた。
分析では,SOTAモデルとLLMの性能ギャップの測定に焦点をあてた。
概して観察される傾向は、SOTAモデルは概してゼロショット学習においてLLMよりも優れており、例外もある。
特に、少ないショット学習技術を持つ大きな計算モデルでは、パフォーマンスのギャップを低減できた。
本研究は,アラビア語NLPおよび音声処理タスクにおけるLLMの適用性に関する貴重な知見を提供する。
関連論文リスト
- Investigating the translation capabilities of Large Language Models trained on parallel data only [1.5974665548135587]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの幅広い範囲で例外的な習熟性を示している。
PLUMEは,カタルーニャ語中心の並列例に特化して訓練された語彙サイズ(32k,128k,256k)の異なる3つの2B LLMのコレクションである。
これらのモデルは、16の教師付き翻訳方向と56のゼロショット上で、以前のエンコーダ・デコーダアーキテクチャと互換性がある。
論文 参考訳(メタデータ) (2024-06-13T14:08:56Z) - Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。
本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。
実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文 参考訳(メタデータ) (2024-05-24T11:30:37Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Skipped Beat: A Study of Sociopragmatic Understanding in LLMs for 64
Languages [17.055109973224265]
SPARROWは言語間社会プラグマティックな意味(SM)理解に特化して設計された広範囲なベンチマークである。
SPARROWは、6つの主要カテゴリ(例えば、反社会的言語検出、感情認識)にわたる13のタスクタイプをカバーする169のデータセットで構成されている。
本研究では,SPARROWにおける多言語事前訓練型言語モデル(mT5など)と命令調整型LLM(BLOOMZ, ChatGPTなど)の性能を,微調整,ゼロショット,少数ショット学習により評価する。
論文 参考訳(メタデータ) (2023-10-23T04:22:44Z) - ChatGPT for Arabic Grammatical Error Correction [5.945320097465418]
大きな言語モデル(LLM)は、人間の指示に従うように微調整され、英語のNLPタスクにおいて重要な機能を示した。
本稿では,アラビア語の豊富な形態が原因で複雑化した課題である,アラビア語 GEC における微調整 LLM の指導能力について検討する。
命令の微調整モデルは,そのサイズによらず,かなり小型の完全微調整モデルに比べて性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-08-08T18:00:39Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。