論文の概要: From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2506.01920v1
- Date: Mon, 02 Jun 2025 17:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.676641
- Title: From Guidelines to Practice: A New Paradigm for Arabic Language Model Evaluation
- Title(参考訳): ガイドラインから実践へ:アラビア語モデル評価の新しいパラダイム
- Authors: Serry Sibaee, Omer Nacar, Adel Ammar, Yasser Al-Habashi, Abdulrahman Al-Batati, Wadii Boulila,
- Abstract要約: まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
アラビア語のDepth Miniデータセット(ADMD)は10のドメインにまたがる490の課題の集合である。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
- 参考スコア(独自算出の注目度): 0.9393150323167235
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper addresses critical gaps in Arabic language model evaluation by establishing comprehensive theoretical guidelines and introducing a novel evaluation framework. We first analyze existing Arabic evaluation datasets, identifying significant issues in linguistic accuracy, cultural alignment, and methodological rigor. To address these limitations in LLMs, we present the Arabic Depth Mini Dataset (ADMD), a carefully curated collection of 490 challenging questions spanning ten major domains (42 sub-domains, see Figure 1. Using ADMD, we evaluate five leading language models: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B, and Qwen-Max. Our results reveal significant variations in model performance across different domains, with particular challenges in areas requiring deep cultural understanding and specialized knowledge. Claude 3.5 Sonnet demonstrated the highest overall accuracy at 30\%, showing relative strength in mathematical theory in Arabic, Arabic language, and islamic domains. This work provides both theoretical foundations and practical insights for improving Arabic language model evaluation, emphasizing the importance of cultural competence alongside technical capabilities.
- Abstract(参考訳): 本稿では、包括的な理論ガイドラインを確立し、新しい評価枠組みを導入することで、アラビア語モデル評価における重要なギャップを解消する。
まず、既存のアラビア評価データセットを分析し、言語的正確性、文化的アライメント、方法論的厳密性において重要な課題を特定した。
LLMのこれらの制限に対処するために、アラビアのDepth Mini Dataset (ADMD) を紹介します。
ADMDを用いて、GPT-4、Claude 3.5 Sonnet、Gemini Flash 1.5、CommandR 100B、Qwen-Maxの5つの主要な言語モデルを評価する。
以上の結果から,文化的な理解と専門知識を必要とする分野において,様々な領域におけるモデル性能の顕著な変動が明らかとなった。
Claude 3.5 Sonnetは、アラビア語、アラビア語、イスラム教の領域における数学理論の相対的な強さを示した。
この研究は、アラビア語のモデル評価を改善するための理論的基礎と実践的な洞察の両方を提供し、技術的能力とともに文化的な能力の重要性を強調している。
関連論文リスト
- Absher: A Benchmark for Evaluating Large Language Models Understanding of Saudi Dialects [0.1499944454332829]
textttAbsherは6つの異なるカテゴリにまたがる18,000以上の多重選択質問で構成されている。
これらの質問は、サウジアラビアの様々な地域から派生した方言の単語、フレーズ、証明のデータセットから導かれる。
我々は,多言語およびアラビア語固有のモデルを含む,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2025-07-14T12:33:07Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian [0.0]
本稿では,ウクライナの標準教育試験システムによる実際の試験課題に基づくZNO-Evalベンチマークを提案する。
それは、異なるドメインと複雑さにわたる推論能力の徹底的な分析への道を開く。
GPT-3.5-Turbo、GPT-4-Turbo、Mistral Large、Claude 3 Opus、Gemini-1.5 Proなど、よく知られた言語モデルの評価。
論文 参考訳(メタデータ) (2025-01-12T04:49:06Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - MultiPragEval: Multilingual Pragmatic Evaluation of Large Language Models [0.5822010906632046]
本研究では,Large Language Models (LLMs)の最初の実用的評価であるMultiPragEvalを紹介する。
Griceの協力原理に従って分類された1200の質問ユニットを補完するMultiPragEvalは、LLMの文脈認識とインプリケートされた意味を推測する能力の詳細な評価を可能にする。
以上の結果から,Claude3-Opusはすべてのテスト言語で他のモデルよりも優れており,この分野における最先端の確立が期待できる。
論文 参考訳(メタデータ) (2024-06-11T21:46:03Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。