論文の概要: Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps
- arxiv url: http://arxiv.org/abs/2510.13430v2
- Date: Thu, 16 Oct 2025 12:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 14:17:28.101755
- Title: Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps
- Title(参考訳): アラビア語大言語モデルの評価:ベンチマーク,メソッド,ギャップの調査
- Authors: Ahmed Alzubaidi, Shaikha Alsuwaidi, Basma El Amel Boussaha, Leen AlQadi, Omar Alkaabi, Mohammed Alyafeai, Hamza Alobeidli, Hakim Hacid,
- Abstract要約: この調査は、NLPタスク、知識領域、文化的理解、特殊能力にわたる40以上の評価ベンチマークを分析し、アラビア語のLLMベンチマークを初めて体系的にレビューした。
本稿では,ナレッジ,NLPタスク,カルチャー・アンド・ダイアレクト,ターゲット・スペクティフィック評価の4つのカテゴリに分類基準を編成する手法を提案する。
分析の結果,時間的評価の限界,マルチターン・ダイアログの不十分,データセットの文化的な相違など,重要なギャップを識別しながら,ベンチマークの多様性が著しく向上していることが判明した。
- 参考スコア(独自算出の注目度): 3.689494816536669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This survey provides the first systematic review of Arabic LLM benchmarks, analyzing 40+ evaluation benchmarks across NLP tasks, knowledge domains, cultural understanding, and specialized capabilities. We propose a taxonomy organizing benchmarks into four categories: Knowledge, NLP Tasks, Culture and Dialects, and Target-Specific evaluations. Our analysis reveals significant progress in benchmark diversity while identifying critical gaps: limited temporal evaluation, insufficient multi-turn dialogue assessment, and cultural misalignment in translated datasets. We examine three primary approaches: native collection, translation, and synthetic generation discussing their trade-offs regarding authenticity, scale, and cost. This work serves as a comprehensive reference for Arabic NLP researchers, providing insights into benchmark methodologies, reproducibility standards, and evaluation metrics while offering recommendations for future development.
- Abstract(参考訳): この調査は、NLPタスク、知識領域、文化的理解、特殊能力にわたる40以上の評価ベンチマークを分析し、アラビア語のLLMベンチマークを初めて体系的にレビューした。
本稿では,ナレッジ,NLPタスク,カルチャー・アンド・ダイアレクト,ターゲット・スペクティフィック評価の4つのカテゴリに分類基準を編成する手法を提案する。
本分析は, 時間的評価の限界, マルチターン対話評価の不十分, 翻訳データセットにおける文化的不一致など, 重要なギャップを識別しながら, ベンチマークの多様性が著しく向上していることを明らかにする。
本稿では, ネイティブコレクション, 翻訳, 合成生成の3つの主要なアプローチについて検討し, 信頼性, スケール, コストに関するトレードオフについて議論する。
この研究は、アラビア語のNLP研究者の包括的な参照として機能し、将来の開発のための勧告を提供しながら、ベンチマーク方法論、再現性標準、評価指標に関する洞察を提供する。
関連論文リスト
- MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文 参考訳(メタデータ) (2025-09-15T19:51:57Z) - Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey [48.11376507684374]
我々は総合的な調査を行い、LALM評価のための体系的な分類法を提案する。
各カテゴリの詳細な概要と,この分野の課題について紹介する。
調査した論文の収集を公表し、現在進行中の分野の発展を支援するため、積極的に維持していく。
論文 参考訳(メタデータ) (2025-05-21T19:17:29Z) - Multilingual European Language Models: Benchmarking Approaches and Challenges [2.413212225810367]
生成型大規模言語モデル(LLM)は、チャットインタラクションによってさまざまなタスクを解決できる。
本稿では、多言語欧州ベンチマークに着目し、現在の評価データセットの利点と限界について分析する。
本稿では,翻訳品質と文化バイアスを高めるための潜在的な解決策について論じる。
論文 参考訳(メタデータ) (2025-02-18T14:32:17Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。