Fugu-MT 論文翻訳(概要): Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps

論文の概要: Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps

arxiv url: http://arxiv.org/abs/2510.13430v2
Date: Thu, 16 Oct 2025 12:22:13 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 14:17:28.101755
Title: Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps
Title（参考訳）: アラビア語大言語モデルの評価:ベンチマーク,メソッド,ギャップの調査
Authors: Ahmed Alzubaidi, Shaikha Alsuwaidi, Basma El Amel Boussaha, Leen AlQadi, Omar Alkaabi, Mohammed Alyafeai, Hamza Alobeidli, Hakim Hacid,
Abstract要約: この調査は、NLPタスク、知識領域、文化的理解、特殊能力にわたる40以上の評価ベンチマークを分析し、アラビア語のLLMベンチマークを初めて体系的にレビューした。本稿では,ナレッジ,NLPタスク,カルチャー・アンド・ダイアレクト,ターゲット・スペクティフィック評価の4つのカテゴリに分類基準を編成する手法を提案する。分析の結果,時間的評価の限界,マルチターン・ダイアログの不十分,データセットの文化的な相違など,重要なギャップを識別しながら,ベンチマークの多様性が著しく向上していることが判明した。
参考スコア（独自算出の注目度）: 3.689494816536669
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This survey provides the first systematic review of Arabic LLM benchmarks, analyzing 40+ evaluation benchmarks across NLP tasks, knowledge domains, cultural understanding, and specialized capabilities. We propose a taxonomy organizing benchmarks into four categories: Knowledge, NLP Tasks, Culture and Dialects, and Target-Specific evaluations. Our analysis reveals significant progress in benchmark diversity while identifying critical gaps: limited temporal evaluation, insufficient multi-turn dialogue assessment, and cultural misalignment in translated datasets. We examine three primary approaches: native collection, translation, and synthetic generation discussing their trade-offs regarding authenticity, scale, and cost. This work serves as a comprehensive reference for Arabic NLP researchers, providing insights into benchmark methodologies, reproducibility standards, and evaluation metrics while offering recommendations for future development.
Abstract（参考訳）: この調査は、NLPタスク、知識領域、文化的理解、特殊能力にわたる40以上の評価ベンチマークを分析し、アラビア語のLLMベンチマークを初めて体系的にレビューした。本稿では,ナレッジ,NLPタスク,カルチャー・アンド・ダイアレクト,ターゲット・スペクティフィック評価の4つのカテゴリに分類基準を編成する手法を提案する。本分析は, 時間的評価の限界, マルチターン対話評価の不十分, 翻訳データセットにおける文化的不一致など, 重要なギャップを識別しながら, ベンチマークの多様性が著しく向上していることを明らかにする。本稿では, ネイティブコレクション, 翻訳, 合成生成の3つの主要なアプローチについて検討し, 信頼性, スケール, コストに関するトレードオフについて議論する。この研究は、アラビア語のNLP研究者の包括的な参照として機能し、将来の開発のための勧告を提供しながら、ベンチマーク方法論、再現性標準、評価指標に関する洞察を提供する。

論文の概要: Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps

関連論文リスト