論文の概要: From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.01920v1
- Date: Mon, 02 Jun 2025 17:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.676641
- Title: From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation
- Title(参考訳): ガイドラインから実践へ:アラビア語モデル評価の新しいパラダイム
- Authors: Serry Sibaee, Omer Nacar, Adel Ammar, Yasser Al-Habashi, Abdulrahman Al-Batati, Wadii Boulila,
- Abstract要約: まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
アラビア語のDepth Miniデータセット(ADMD)は10のドメインにまたがる490の課題の集合である。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
- 参考スコア(独自算出の注目度): 0.9393150323167235
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper addresses critical gaps in Arabic language model evaluation by establishing comprehensive theoretical guidelines and introducing a novel evaluation framework. We first analyze existing Arabic evaluation datasets, identifying significant issues in linguistic accuracy, cultural alignment, and methodological rigor. To address these limitations in LLMs, we present the Arabic Depth Mini Dataset (ADMD), a carefully curated collection of 490 challenging questions spanning ten major domains (42 sub-domains, see Figure 1. Using ADMD, we evaluate five leading language models: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B, and Qwen-Max. Our results reveal significant variations in model performance across different domains, with particular challenges in areas requiring deep cultural understanding and specialized knowledge. Claude 3.5 Sonnet demonstrated the highest overall accuracy at 30\%, showing relative strength in mathematical theory in Arabic, Arabic language, and islamic domains. This work provides both theoretical foundations and practical insights for improving Arabic language model evaluation, emphasizing the importance of cultural competence alongside technical capabilities.
- Abstract(参考訳): 本稿では、包括的な理論ガイドラインを確立し、新しい評価枠組みを導入することで、アラビア語モデル評価における重要なギャップを解消する。
まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
LLMのこれらの制限に対処するために、アラビアのDepth Mini Dataset (ADMD) を紹介します。
ADMDを用いて、GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B、Qwen-Maxの5つの主要な言語モデルを評価する。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
Claude 3.5 Sonnetは、アラビア語、アラビア語、イスラム教の領域における数学理論の相対的な強さを示した。
この研究は、アラビア語のモデル評価を改善するための理論的基礎と実践的な洞察の両方を提供し、技術的能力とともに文化的な能力の重要性を強調している。
関連論文リスト
- ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。