論文の概要: SciEval: A Benchmark for Automatic Evaluation of K-12 Science Instructional Materials
- arxiv url: http://arxiv.org/abs/2604.25472v1
- Date: Tue, 28 Apr 2026 10:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.817609
- Title: SciEval: A Benchmark for Automatic Evaluation of K-12 Science Instructional Materials
- Title(参考訳): SciEval: K-12科学教材の自動評価ベンチマーク
- Authors: Zhaohui Li, Peng He, Zhiyuan Chen, Honglu Liu, Zeyuan Wang, Tingting Li, Jinjun Xiong,
- Abstract要約: 教材のレビューは時間がかかり、専門知識が豊富で、スケールが難しい。
大規模言語モデル (LLM) は, 一般的な評価課題において高い性能を示したが, 教材の信頼性や性能は明らかになっていない。
我々は,学習者が設計したルーリックを用いて,スコアと証拠を予測する生成AIタスクとして,自動教材評価を定式化する。
- 参考スコア(独自算出の注目度): 21.289303756753693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The need to evaluate instructional materials for K-12 science education has become increasingly important, as more educators use generative AI to create instructional materials. However, the review of instructional materials is time-consuming, expertise-intensive, and difficult to scale, motivating interest in automated evaluation approaches. While large language models (LLMs) have shown strong performance on general evaluation tasks, their performance and reliability on instructional materials remain unclear. To address this gap, we formulate Automatic Instructional Materials Evaluation (AIME) as a generative AI task that predicts scores and evidence using the rubric designed by the educator. We create a benchmark dataset and develop baseline models for AIME. First, we curate the first AIME dataset, SciEval, consisting of instructional materials annotated with pedagogy-aligned evaluation scores and evidence-based rationales. Expert annotations achieve high inter-rater reliability, resulting in a dataset of 273 lesson-level instructional materials evaluated across 13 criteria (N=3549) using the EQuIP rubric. Second, we test mainstream LLMs (GPT, Gemini, Llama, and Qwen) on SciEval and find that none achieve strong performance. Then we fine-tune Qwen3 on SciEval. Results on a held-out test set show that domain-aligned fine-tuning can achieve up to 11 percent performance gains, highlighting the importance of domain-specific fine-tuning for AIME and facilitating the use of LLMs in other educational tasks.
- Abstract(参考訳): K-12科学教育のための教材評価の必要性はますます重要になってきており、多くの教育者が生成AIを使って教材を作成する。
しかし,授業資料のレビューは時間を要するため,専門知識が集中的であり,スケールが困難であり,自動評価手法への関心を喚起している。
大規模言語モデル (LLM) は, 一般的な評価課題において高い性能を示したが, 教材の性能と信頼性は未だ不明である。
このギャップに対処するために,我々は,AIME(Automatic Instructional Materials Evaluation)を,教育者が設計したルーリックを用いて,スコアとエビデンスを予測する生成AIタスクとして定式化する。
ベンチマークデータセットを作成し、AIMEのベースラインモデルを開発する。
まず,AIMEの最初のデータセットであるSciEvalを,教育的評価スコアとエビデンスに基づく理論的根拠を付加した教材でキュレートする。
その結果、EQuIPルーブリックを用いて13の基準(N=3549)で評価された273の授業レベルの教材のデータセットが得られた。
次に、SciEval上でメインストリームのLLM(GPT、Gemini、Llama、Qwen)をテストし、いずれも強力なパフォーマンスを実現していないことを確認します。
次に、SciEvalでQwen3を微調整します。
その結果,AIMEにおけるドメイン固有の微調整の重要性を浮き彫りにして,LLMを他の教育的タスクで活用することの重要性を浮き彫りにすることで,最大11%のパフォーマンス向上を達成できることがわかった。
関連論文リスト
- Beyond Accuracy: Towards a Robust Evaluation Methodology for AI Systems for Language Education [0.0]
AIによる言語教育における大規模言語モデルの急速な採用は、教育的効果を評価するための評価を緊急に必要としてきた。
L2-Benchは、検証済みの「言語学習経験設計者」構築に基礎を置いた、新しい評価ベンチマークである。
本手法は,教育学理論,社会工学的AI評価手法を統合し,階層的な分類法を運用し,専門家が計算したデータセットを構築する。
論文 参考訳(メタデータ) (2026-03-20T16:13:03Z) - Judging the Judges: Human Validation of Multi-LLM Evaluation for High-Quality K--12 Science Instructional Materials [19.831484887538725]
本研究の目的は,GenAIをベースとした教材デザインエージェントの設計原則に関する専門家の洞察を翻訳することである。
我々は意図的に、生命科学、物理科学、地球科学の12の高品質のカリキュラムを選定した。
評価項目9項目のEQuIPルーブリックを用いて,GPT-4o,Claude,Geminiに数値評価と各単位の有理書作成を促した。
2人の理科教育専門家が独立にすべてのアウトプットをレビューし、スコアと合理性の両方について合意(1)または不一致(0)をマークし、AI推論に関する質的な考察を提供した。
論文 参考訳(メタデータ) (2026-01-31T04:50:22Z) - EduEval: A Hierarchical Cognitive Benchmark for Evaluating Large Language Models in Chinese Education [11.130206904690745]
我々は,中国語K-12教育における大規模言語モデル(LLM)を評価するための包括的な階層的ベンチマークであるEduEvalを紹介する。
EduEvalは24種類のタスクタイプで構成され、11,000以上の質問が小学校から高校に分散している。
ゼロショットと少数ショットの両方の条件下で14のLLMを評価した結果,モデルが実際のタスクで良好に機能する一方で,教室での対話の分類に苦慮し,創造的コンテンツ生成において矛盾する結果を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-11-29T03:09:50Z) - IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。