論文の概要: ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic
- arxiv url: http://arxiv.org/abs/2402.12840v1
- Date: Tue, 20 Feb 2024 09:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 16:07:09.763854
- Title: ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic
- Title(参考訳): アラビア語MMLU:アラビア語で多タスク言語を理解する
- Authors: Fajri Koto and Haonan Li and Sara Shatnawi and Jad Doughman and
Abdelrahman Boda Sadallah and Aisha Alraeesi and Khalid Almubarak and Zaid
Alyafeai and Neha Sengupta and Shady Shehata and Nizar Habash and Preslav
Nakov and Timothy Baldwin
- Abstract要約: アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
- 参考スコア(独自算出の注目度): 53.1913348687902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focus of language model evaluation has transitioned towards reasoning and
knowledge-intensive tasks, driven by advancements in pretraining large models.
While state-of-the-art models are partially trained on large Arabic texts,
evaluating their performance in Arabic remains challenging due to the limited
availability of relevant datasets. To bridge this gap, we present ArabicMMLU,
the first multi-task language understanding benchmark for Arabic language,
sourced from school exams across diverse educational levels in different
countries spanning North Africa, the Levant, and the Gulf regions. Our data
comprises 40 tasks and 14,575 multiple-choice questions in Modern Standard
Arabic (MSA), and is carefully constructed by collaborating with native
speakers in the region. Our comprehensive evaluations of 35 models reveal
substantial room for improvement, particularly among the best open-source
models. Notably, BLOOMZ, mT0, LLama2, and Falcon struggle to achieve a score of
50%, while even the top-performing Arabic-centric model only achieves a score
of 62.3%.
- Abstract(参考訳): 言語モデル評価の焦点は、大規模モデルの事前訓練の進展により、推論や知識集約的なタスクへと移行してきた。
最先端のモデルは大きなアラビア語のテキストで部分的に訓練されているが、関連するデータセットが限られているため、アラビア語でのパフォーマンスの評価は依然として困難である。
このギャップを埋めるために,北アフリカ,レバント,湾岸地方にまたがる多様な教育レベルを対象とした学校試験から,アラビア語のマルチタスク言語理解ベンチマークであるarabicmmluを提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルの包括的評価から、特に最高のオープンソースモデルにおいて、改善の余地が明らかになりました。
特に、BLOOMZ、mT0、LLama2、Falconは50%のスコアを達成するのに苦労し、最高パフォーマンスのアラビア中心のモデルでさえ62.3%のスコアしか獲得できない。
関連論文リスト
- AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic [0.0]
アラビア語におけるモデルの数学的推論と言語理解能力を評価するために設計された2つの新しいベンチマークを導入する。
これらのベンチマークは、サウジアラビアの大学入試に広く使用される標準化された試験であるカイヤス試験(英語版)と呼ばれる一般適性試験(GAT)に由来する。
論文 参考訳(メタデータ) (2024-06-28T16:34:31Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。
アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文 参考訳(メタデータ) (2022-12-21T04:35:43Z) - Revisiting Pre-trained Language Models and their Evaluation for Arabic
Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。
文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。
我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-21T22:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。