Fugu-MT 論文翻訳(概要): ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic

論文の概要: ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic

arxiv url: http://arxiv.org/abs/2402.12840v1
Date: Tue, 20 Feb 2024 09:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 16:07:09.763854
Title: ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic
Title（参考訳）: アラビア語MMLU:アラビア語で多タスク言語を理解する
Authors: Fajri Koto and Haonan Li and Sara Shatnawi and Jad Doughman and Abdelrahman Boda Sadallah and Aisha Alraeesi and Khalid Almubarak and Zaid Alyafeai and Neha Sengupta and Shady Shehata and Nizar Habash and Preslav Nakov and Timothy Baldwin
Abstract要約: アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
参考スコア（独自算出の注目度）: 53.1913348687902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The focus of language model evaluation has transitioned towards reasoning and knowledge-intensive tasks, driven by advancements in pretraining large models. While state-of-the-art models are partially trained on large Arabic texts, evaluating their performance in Arabic remains challenging due to the limited availability of relevant datasets. To bridge this gap, we present ArabicMMLU, the first multi-task language understanding benchmark for Arabic language, sourced from school exams across diverse educational levels in different countries spanning North Africa, the Levant, and the Gulf regions. Our data comprises 40 tasks and 14,575 multiple-choice questions in Modern Standard Arabic (MSA), and is carefully constructed by collaborating with native speakers in the region. Our comprehensive evaluations of 35 models reveal substantial room for improvement, particularly among the best open-source models. Notably, BLOOMZ, mT0, LLama2, and Falcon struggle to achieve a score of 50%, while even the top-performing Arabic-centric model only achieves a score of 62.3%.
Abstract（参考訳）: 言語モデル評価の焦点は、大規模モデルの事前訓練の進展により、推論や知識集約的なタスクへと移行してきた。最先端のモデルは大きなアラビア語のテキストで部分的に訓練されているが、関連するデータセットが限られているため、アラビア語でのパフォーマンスの評価は依然として困難である。このギャップを埋めるために,北アフリカ,レバント,湾岸地方にまたがる多様な教育レベルを対象とした学校試験から,アラビア語のマルチタスク言語理解ベンチマークであるarabicmmluを提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルの包括的評価から、特に最高のオープンソースモデルにおいて、改善の余地が明らかになりました。特に、BLOOMZ、mT0、LLama2、Falconは50%のスコアを達成するのに苦労し、最高パフォーマンスのアラビア中心のモデルでさえ62.3%のスコアしか獲得できない。

関連論文リスト

ALPS: A Diagnostic Challenge Set for Arabic Linguistic & Pragmatic Reasoning [0.0]
ALPS(アラビア語: Linguistic & Pragmatic Suite)は、Deep Semantics and Pragmatics(ディープ・セマンティックス・アンド・プラグマティクス)を探索する専門的な診断課題である。 ALPSは15のタスクと47のサブタスクにわたる厳密な質問を531問を通じて言語理解の深さを目標としている。我々は、アラビア語の言語学の深い専門知識と文化の真正性を保証し、翻訳品を排除したデータセットを開発した。
論文参考訳（メタデータ） (2026-02-19T03:51:37Z)
DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。 MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文参考訳（メタデータ） (2025-10-31T15:17:06Z)
BALSAM: A Platform for Benchmarking Arabic Large Language Models [34.50348949235453]
BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。 14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
論文参考訳（メタデータ） (2025-07-30T12:16:39Z)
Large Language Models and Arabic Content: A Review [0.0]
本研究は,アラビア語に対する大規模言語モデル (LLM) の利用について概説する。様々なNLPアプリケーションにまたがる、初期の訓練済みのアラビア語モデルを強調している。また、ファインチューニングやプロンプトエンジニアリングのような技術がこれらのモデルの性能を高める方法の概要も提供する。
論文参考訳（メタデータ） (2025-05-12T19:09:12Z)
Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。 AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。 AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文参考訳（メタデータ） (2025-01-31T18:58:20Z)
AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。本研究で検証した方言翻訳モデルとベンチマークをリリースする。
論文参考訳（メタデータ） (2024-09-17T17:59:25Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。 2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文参考訳（メタデータ） (2024-07-13T21:09:38Z)
The Qiyas Benchmark: Measuring ChatGPT Mathematical and Language Understanding in Arabic [0.0]
アラビア語におけるモデルの数学的推論と言語理解能力を評価するために設計された2つの新しいベンチマークを導入する。これらのベンチマークは、サウジアラビアの大学入試に広く使用される標準化された試験であるカイヤス試験(英語版)と呼ばれる一般適性試験(GAT)に由来する。
論文参考訳（メタデータ） (2024-06-28T16:34:31Z)
On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文参考訳（メタデータ） (2024-01-15T15:11:15Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
ORCA: A Challenging Benchmark for Arabic Language Understanding [8.9379057739817]
ORCAはアラビア語理解評価のための公開ベンチマークである。アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。
論文参考訳（メタデータ） (2022-12-21T04:35:43Z)
Revisiting Pre-trained Language Models and their Evaluation for Arabic Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-21T22:38:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。