論文の概要: DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2510.27543v1
- Date: Fri, 31 Oct 2025 15:17:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.147076
- Title: DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models
- Title(参考訳): アラビア語MMLU:アラビア語および多言語言語モデルにおける方言能力のベンチマーク
- Authors: Malik H. Altakrori, Nizar Habash, Abdelhakim Freihat, Younes Samih, Kirill Chirkunov, Muhammed AbuOdeh, Radu Florian, Teresa Lynn, Preslav Nakov, Alham Fikri Aji,
- Abstract要約: アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
- 参考スコア(独自算出の注目度): 54.10223256792762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DialectalArabicMMLU, a new benchmark for evaluating the performance of large language models (LLMs) across Arabic dialects. While recently developed Arabic and multilingual benchmarks have advanced LLM evaluation for Modern Standard Arabic (MSA), dialectal varieties remain underrepresented despite their prevalence in everyday communication. DialectalArabicMMLU extends the MMLU-Redux framework through manual translation and adaptation of 3K multiple-choice question-answer pairs into five major dialects (Syrian, Egyptian, Emirati, Saudi, and Moroccan), yielding a total of 15K QA pairs across 32 academic and professional domains (22K QA pairs when also including English and MSA). The benchmark enables systematic assessment of LLM reasoning and comprehension beyond MSA, supporting both task-based and linguistic analysis. We evaluate 19 open-weight Arabic and multilingual LLMs (1B-13B parameters) and report substantial performance variation across dialects, revealing persistent gaps in dialectal generalization. DialectalArabicMMLU provides the first unified, human-curated resource for measuring dialectal understanding in Arabic, thus promoting more inclusive evaluation and future model development.
- Abstract(参考訳): アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
最近開発されたアラビア語と多言語ベンチマークは、現代標準アラビア語(MSA)のLCM評価を進歩させてきたが、日常的なコミュニケーションが盛んであるにもかかわらず、方言の品種は相変わらず表せないままである。
ダイナレクタル・アラビアMMLUはMMLU-Reduxフレームワークを拡張し、3Kの複数の質問応答対を5つの主要な方言(シリア語、エジプト語、エミラティ語、サウジアラビア語、モロッコ語)に手動で翻訳し、32の学術ドメインと専門ドメイン(英語とMSAも含む22KのQAペア)で合計15KのQAペアを得る。
このベンチマークは、タスクベースおよび言語分析の両方をサポートするため、MLAを超えたLCM推論と理解の体系的な評価を可能にする。
19個のアラビア語および多言語LLM(1B-13Bパラメータ)を評価し,方言間の性能変動を報告する。
ダイアレクタル・アラビアMMLUは、アラビア語の方言理解を測定するための最初の統一された人為的な資源を提供し、より包括的評価と将来のモデル開発を促進する。
関連論文リスト
- MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。