論文の概要: OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education
- arxiv url: http://arxiv.org/abs/2510.26422v1
- Date: Thu, 30 Oct 2025 12:16:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.80276
- Title: OmniEduBench: A Comprehensive Chinese Benchmark for Evaluating Large Language Models in Education
- Title(参考訳): OmniEduBench: 教育における大規模言語モデル評価のための総合的な中国語ベンチマーク
- Authors: Min Zhang, Hao Chen, Hao Chen, Wenqi Zhang, Didi Zhu, Xin Lin, Bo Jiang, Aimin Zhou, Fei Wu, Kun Kuang,
- Abstract要約: 中国の総合的な教育ベンチマークであるOmniEduBenchを紹介する。
データは、知識次元と栽培次元の2つの中核次元に分けられる。
データセットには、11の一般的な試験質問タイプを含む、さまざまな質問形式がある。
- 参考スコア(独自算出の注目度): 72.40048732210055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs), various LLM-based works have been widely applied in educational fields. However, most existing LLMs and their benchmarks focus primarily on the knowledge dimension, largely neglecting the evaluation of cultivation capabilities that are essential for real-world educational scenarios. Additionally, current benchmarks are often limited to a single subject or question type, lacking sufficient diversity. This issue is particularly prominent within the Chinese context. To address this gap, we introduce OmniEduBench, a comprehensive Chinese educational benchmark. OmniEduBench consists of 24.602K high-quality question-answer pairs. The data is meticulously divided into two core dimensions: the knowledge dimension and the cultivation dimension, which contain 18.121K and 6.481K entries, respectively. Each dimension is further subdivided into 6 fine-grained categories, covering a total of 61 different subjects (41 in the knowledge and 20 in the cultivation). Furthermore, the dataset features a rich variety of question formats, including 11 common exam question types, providing a solid foundation for comprehensively evaluating LLMs' capabilities in education. Extensive experiments on 11 mainstream open-source and closed-source LLMs reveal a clear performance gap. In the knowledge dimension, only Gemini-2.5 Pro surpassed 60\% accuracy, while in the cultivation dimension, the best-performing model, QWQ, still trailed human intelligence by nearly 30\%. These results highlight the substantial room for improvement and underscore the challenges of applying LLMs in education.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、様々なLLMベースの作品が教育分野に広く応用されている。
しかし、既存のLLMとそのベンチマークのほとんどは、主に知識の次元に焦点を当てており、現実世界の教育シナリオに不可欠な栽培能力の評価を無視している。
加えて、現在のベンチマークは、しばしば単一の主題または質問タイプに制限され、十分な多様性が欠如している。
この問題は特に中国の文脈で顕著である。
このギャップに対処するため、中国の総合的な教育ベンチマークであるOmniEduBenchを紹介します。
OmniEduBenchは24.602Kの高品質な質問応答ペアで構成されている。
データはそれぞれ18.121Kと6.481Kのエントリを含む知識次元と栽培次元の2つの中核次元に分けられる。
各次元はさらに6つの細粒度カテゴリに分けられ、61の異なる主題(知識41、栽培20)をカバーする。
さらに、データセットには、11の共通試験質問タイプを含む、多種多様な質問形式があり、教育におけるLLMの能力を総合的に評価するための確かな基盤を提供する。
11の主流のオープンソースおよびクローズドソース LLM に関する大規模な実験は、明らかなパフォーマンスギャップを明らかにしている。
知識の面では、Gemini-2.5 Proの精度は60%を超え、栽培次元では、最高のパフォーマンスモデルであるQWQが、人間の知能を30倍近く追った。
これらの結果は,LLMを教育に適用する上での課題を浮き彫りにし,改善の余地を浮き彫りにしている。
関連論文リスト
- SinhalaMMLU: A Comprehensive Benchmark for Evaluating Multitask Language Understanding in Sinhala [39.525952729268994]
SinhalaMMLUは、Sinhala専用に設計された最初の複数選択質問応答ベンチマークである。
このデータセットには、スリランカの国家カリキュラムに適合する2次教育レベルにまたがる7000以上の質問が含まれている。
SinhalaMMLU 上で26個の LLM を評価し,Claude 3.5 sonnet と GPT-4o がそれぞれ 67% と 62% の最高精度で達成されているのに対して,モデル全体の性能は限定的である。
論文 参考訳(メタデータ) (2025-09-03T09:22:39Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。
それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。
効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data [31.324617466692754]
CJEvalは中国の中学校のエクサム評価に基づくベンチマークである。
26,136個のサンプルから成っている。
このベンチマークを用いて,LLMの潜在的な応用性を評価し,その性能を総合的に分析した。
論文 参考訳(メタデータ) (2024-09-24T16:00:28Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。