論文の概要: EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education
- arxiv url: http://arxiv.org/abs/2512.00290v1
- Date: Sat, 29 Nov 2025 03:09:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.152777
- Title: EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education
- Title(参考訳): 中国語教育における大規模言語モデル評価のための階層的認知ベンチマークEduEval
- Authors: Guoqing Ma, Jia Zhu, Hanghui Guo, Weijie Shi, Yue Cui, Jiawei Shen, Zilong Li, Yidan Liang,
- Abstract要約: 我々は,中国語K-12教育における大規模言語モデル(LLM)を評価するための包括的な階層的ベンチマークであるEduEvalを紹介する。
EduEvalは24種類のタスクタイプで構成され、11,000以上の質問が小学校から高校に分散している。
ゼロショットと少数ショットの両方の条件下で14のLLMを評価した結果,モデルが実際のタスクで良好に機能する一方で,教室での対話の分類に苦慮し,創造的コンテンツ生成において矛盾する結果を示すことが明らかとなった。
- 参考スコア(独自算出の注目度): 11.130206904690745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate significant potential for educational applications. However, their unscrutinized deployment poses risks to educational standards, underscoring the need for rigorous evaluation. We introduce EduEval, a comprehensive hierarchical benchmark for evaluating LLMs in Chinese K-12 education. This benchmark makes three key contributions: (1) Cognitive Framework: We propose the EduAbility Taxonomy, which unifies Bloom's Taxonomy and Webb's Depth of Knowledge to organize tasks across six cognitive dimensions including Memorization, Understanding, Application, Reasoning, Creativity, and Ethics. (2) Authenticity: Our benchmark integrates real exam questions, classroom conversation, student essays, and expert-designed prompts to reflect genuine educational challenges; (3) Scale: EduEval comprises 24 distinct task types with over 11,000 questions spanning primary to high school levels. We evaluate 14 leading LLMs under both zero-shot and few-shot settings, revealing that while models perform well on factual tasks, they struggle with classroom dialogue classification and exhibit inconsistent results in creative content generation. Interestingly, several open source models outperform proprietary systems on complex educational reasoning. Few-shot prompting shows varying effectiveness across cognitive dimensions, suggesting that different educational objectives require tailored approaches. These findings provide targeted benchmarking metrics for developing LLMs specifically optimized for diverse Chinese educational tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育アプリケーションにとって大きな可能性を示す。
しかし、その非精査された展開は教育基準にリスクをもたらし、厳格な評価の必要性を浮き彫りにする。
我々は,中国K-12教育におけるLLM評価のための総合的階層的ベンチマークであるEduEvalを紹介する。
認知的枠組み: ブルームの分類とWebbの知識の深さを統一し、記憶、理解、応用、推論、創造性、倫理を含む6つの認知的側面にわたるタスクを組織化するEduAbility Taxonomyを提案する。
2) 正当性:本ベンチマークでは,実際の試験質問,教室での会話,学生のエッセイ,専門家が設計したプロンプトを統合して,真の教育課題を反映する。
ゼロショット, 少数ショットの両設定で14のLLMを評価した結果, モデルが実際のタスクで良好に機能する一方で, 教室内対話の分類に苦慮し, 創造的コンテンツ生成において矛盾する結果を示した。
興味深いことに、いくつかのオープンソースモデルは、複雑な教育的推論においてプロプライエタリなシステムより優れている。
ほとんどショットプロンプトは認知的側面によって異なる効果を示しており、異なる教育目的には調整されたアプローチが必要であることを示唆している。
これらの結果は、中国における多様な教育課題に特化して最適化されたLSMを開発するための目標ベンチマーク指標を提供する。
関連論文リスト
- PustakAI: Curriculum-Aligned and Interactive Textbooks Using Large Language Models [4.419156740280761]
LLM(Large Language Models)は、人間のようなコンテンツを理解し、生成する際、顕著な能力を示す。
我々は多くのインドの言語で「本」を意味する"PustakAI"footnotePustak"の枠組みを提示する。
メタプロンプト,少数ショット,CoTスタイルプロンプトなど,さまざまなプロンプト技術を用いてデータセットを評価する。
論文 参考訳(メタデータ) (2025-11-13T06:12:12Z) - EduDial: Constructing a Large-scale Multi-turn Teacher-Student Dialogue Corpus [59.693733170193944]
EduDialは総合的な多ターン教師/学生対話データセットである。
EduDialは345のコアナレッジポイントをカバーし、教師と学生エージェントの対話によって生成された34,250の対話セッションで構成されている。
論文 参考訳(メタデータ) (2025-10-14T18:18:43Z) - MDK12-Bench: A Comprehensive Evaluation of Multimodal Large Language Models on Multidisciplinary Exams [50.293164501645975]
MLLM(Multimodal large language model)は、言語と視覚を統合して問題解決を行う。
MLLMのインテリジェンスを測定するための現在のベンチマークは、限られた規模、狭い範囲、構造化されていない知識に悩まされている。
MDK12-Benchは、6つの分野にまたがる実世界のK-12試験から構築された大規模マルチディシプリナベンチマークである。
論文 参考訳(メタデータ) (2025-08-09T06:21:10Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models [13.790068801864855]
Edu-Valuesは7つのコア値を含む最初の中国の教育価値評価ベンチマークである。
Edu-Valuesには、専門哲学、教師の専門的倫理、教育法と規則、文化リテラシー、教育知識と技能、基礎的能力、主題的知識が含まれる。
論文 参考訳(メタデータ) (2024-09-19T13:02:54Z) - FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。