論文の概要: AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14295v1
- Date: Tue, 18 Nov 2025 09:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.03714
- Title: AraLingBench A Human-Annotated Benchmark for Evaluating Arabic Linguistic Capabilities of Large Language Models
- Title(参考訳): AraLingBench - 大規模言語モデルのアラビア言語能力評価のための人手によるベンチマーク
- Authors: Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, Nadine Rizk, Fatima Karnib, Issam Lakkis, Ammar Mohanna, Bernard Ghanem,
- Abstract要約: AraLingBenchは、大規模言語モデル(LLM)のアラビア語能力を評価するための、完全に人間による注釈付きベンチマークである。
このベンチマークは、文法、形態学、綴り、読解、構文の5つの中核カテゴリにまたがっており、エキスパートが設計した複数の選択肢に関する質問が150件ある。
- 参考スコア(独自算出の注目度): 37.79823471716066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present AraLingBench: a fully human annotated benchmark for evaluating the Arabic linguistic competence of large language models (LLMs). The benchmark spans five core categories: grammar, morphology, spelling, reading comprehension, and syntax, through 150 expert-designed multiple choice questions that directly assess structural language understanding. Evaluating 35 Arabic and bilingual LLMs reveals that current models demonstrate strong surface level proficiency but struggle with deeper grammatical and syntactic reasoning. AraLingBench highlights a persistent gap between high scores on knowledge-based benchmarks and true linguistic mastery, showing that many models succeed through memorization or pattern recognition rather than authentic comprehension. By isolating and measuring fundamental linguistic skills, AraLingBench provides a diagnostic framework for developing Arabic LLMs. The full evaluation code is publicly available on GitHub.
- Abstract(参考訳): AraLingBench: 大規模言語モデル(LLM)のアラビア語能力を評価するための、完全に人間による注釈付きベンチマークである。
このベンチマークは、文法、形態学、綴り、理解、構文の5つの中核カテゴリにまたがっており、150人の専門家が設計し、構造言語理解を直接評価する複数の選択肢の質問がある。
35のアラビア語とバイリンガルのLLMを評価すると、現在のモデルは強い表面レベルの習熟度を示すが、より深い文法的および構文的推論に苦慮していることがわかる。
AraLingBench氏は、知識ベースのベンチマークにおける高いスコアと真の言語習得の間の永続的なギャップを強調し、多くのモデルが本物の理解よりも記憶やパターン認識を通じて成功することを示した。
AraLingBenchは基本的な言語スキルを分離し、測定することで、アラビア語のLLMを開発するための診断フレームワークを提供する。
完全な評価コードはGitHubで公開されている。
関連論文リスト
- DialectalArabicMMLU: Benchmarking Dialectal Capabilities in Arabic and Multilingual Language Models [54.10223256792762]
アラビア方言における大規模言語モデル(LLM)の性能評価のための新しいベンチマークであるDialectalArabicMMLUを提案する。
MMLU-Redux フレームワークを手動で翻訳し、3K 個の質問応答対を5つの主要な方言に適応することで拡張する。
論文 参考訳(メタデータ) (2025-10-31T15:17:06Z) - ChiKhaPo: A Large-Scale Multilingual Benchmark for Evaluating Lexical Comprehension and Generation in Large Language Models [4.615257892219717]
生成モデルの語彙的理解と生成能力を評価するために, 様々な難易度を持つ8つのサブタスクからなるChiKhaPoを紹介した。
ChiKhaPoは既存のレキシコン、モノリンガルデータ、bitextをベースとして、2つのサブタスクで2700以上の言語をカバーする。
論文 参考訳(メタデータ) (2025-10-19T16:55:20Z) - LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs [0.631976908971572]
LingBench++は、大規模言語モデル(LLM)を評価するためのベンチマークおよび推論フレームワークである。
構造化された推論トレース、ステップワイズ評価プロトコル、90以上の言語にまたがるリッチな型付けメタデータを提供する。
本稿では,外部知識源と反復推論を用いたモデルが,精度と解釈性の両方において単一パスアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-07-22T17:57:44Z) - BnMMLU: Measuring Massive Multitask Language Understanding in Bengali [0.0]
本稿では,ベンガル語モデルにおける言語理解能力を評価するベンチマークであるBnMMLUを紹介する。
データセットは科学、人文科学、数学、一般知識を含む23の領域にまたがる。
我々は、BnMMLUテストセット上で、プロプライエタリでオープンソースの大規模言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2025-05-25T02:54:31Z) - ScholarBench: A Bilingual Benchmark for Abstraction, Comprehension, and Reasoning Evaluation in Academic Contexts [8.181151553582488]
textttScholarBenchは、大規模言語モデル(LLM)の学術的推論能力を評価するためのベンチマークである。
このベンチマークは韓国語で5,031例、英語で5,309例で、o3-miniのような最先端のモデルでさえ、平均評価スコアは0.543点だった。
論文 参考訳(メタデータ) (2025-05-22T11:59:06Z) - PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [85.78821098963607]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。