論文の概要: AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14295v1
- Date: Tue, 18 Nov 2025 09:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.03714
- Title: AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
- Title(参考訳): AraLingBench - 大規模言語モデルのアラビア言語能力評価のための人手によるベンチマーク
- Authors: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem,
- Abstract要約: AraLingBenchは、大規模言語モデル(LLM)のアラビア語能力を評価するための、完全に人間による注釈付きベンチマークである。
このベンチマークは、文法、形態学、綴り、読解、構文の5つの中核カテゴリにまたがっており、エキスパートが設計した複数の選択肢に関する質問が150件ある。
- 参考スコア(独自算出の注目度): 37.79823471716066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.
- Abstract(参考訳): AraLingBench: 大規模言語モデル(LLM)のアラビア語能力を評価するための、完全に人間による注釈付きベンチマークである。
このベンチマークは、文法、形態学、綴り、理解、構文の5つの中核カテゴリにまたがっており、150人の専門家が設計し、構造言語理解を直接評価する複数の選択肢の質問がある。
35のアラビア語とバイリンガルのLLMを評価すると、現在のモデルは強い表面レベルの習熟度を示すが、より深い文法的および構文的推論に苦慮していることがわかる。
AraLingBench氏は、知識ベースのベンチマークにおける高いスコアと真の言語習得の間の永続的なギャップを強調し、多くのモデルが本物の理解よりも記憶やパターン認識を通じて成功することを示した。
AraLingBenchは基本的な言語スキルを分離し、測定することで、アラビア語のLLMを開発するための診断フレームワークを提供する。
完全な評価コードはGitHubで公開されている。
関連論文リスト
- LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs [0.631976908971572]
LingBench++は、大規模言語モデル(LLM)を評価するためのベンチマークおよび推論フレームワークである。
構造化された推論トレース、ステップワイズ評価プロトコル、90以上の言語にまたがるリッチな型付けメタデータを提供する。
本稿では,外部知識源と反復推論を用いたモデルが,精度と解釈性の両方において単一パスアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-22T17:57:44Z) - BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。
データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。
我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2025-05-25T02:54:31Z) - ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts [8.181151553582488]
textttScholarBenchは、大規模言語モデル(LLM)の学術的推論能力を評価するためのベンチマークである。
このベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ、平均評価スコアは0.543点だった。
論文 参考訳(メタデータ) (2025-05-22T11:59:06Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。