論文の概要: EduEVAL-DB: A Role-Based Dataset for Pedagogical Risk Evaluation in Educational Explanations
- arxiv url: http://arxiv.org/abs/2602.15531v2
- Date: Thu, 19 Feb 2026 12:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.207469
- Title: EduEVAL-DB: A Role-Based Dataset for Pedagogical Risk Evaluation in Educational Explanations
- Title(参考訳): EduEVAL-DB:教育説明における教育的リスク評価のための役割ベースデータセット
- Authors: Javier Irigoyen, Roberto Daza, Aythami Morales, Julian Fierrez, Francisco Jurado, Alvaro Ortigosa, Ruben Tolosana,
- Abstract要約: データセットは、ScienceQAベンチマークのキュレートされたサブセットからの139の質問に対応する844の説明で構成されている。
我々は,5つの相補的リスク次元を運用する,確立された教育基準に沿った教育的リスクを提案する。
我々は、最先端の教育指向モデル(Gemini 2.5 Pro)を軽量なローカルLlama 3.1 8Bモデルと比較した。
- 参考スコア(独自算出の注目度): 13.185893390841693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces EduEVAL-DB, a dataset based on teacher roles designed to support the evaluation and training of automatic pedagogical evaluators and AI tutors for instructional explanations. The dataset comprises 854 explanations corresponding to 139 questions from a curated subset of the ScienceQA benchmark, spanning science, language, and social science across K-12 grade levels. For each question, one human-teacher explanation is provided and six are generated by LLM-simulated teacher roles. These roles are inspired by instructional styles and shortcomings observed in real educational practice and are instantiated via prompt engineering. We further propose a pedagogical risk rubric aligned with established educational standards, operationalizing five complementary risk dimensions: factual correctness, explanatory depth and completeness, focus and relevance, student-level appropriateness, and ideological bias. All explanations are annotated with binary risk labels through a semi-automatic process with expert teacher review. Finally, we present preliminary validation experiments to assess the suitability of EduEVAL-DB for evaluation. We benchmark a state-of-the-art education-oriented model (Gemini 2.5 Pro) against a lightweight local Llama 3.1 8B model and examine whether supervised fine-tuning on EduEVAL-DB supports pedagogical risk detection using models deployable on consumer hardware.
- Abstract(参考訳): この研究は、教師の役割に基づいたデータセットであるEduEVAL-DBを紹介した。
データセットはScienceQAベンチマークのキュレートされたサブセットからの139の質問に対応する854の説明で構成され、科学、言語、社会科学をK-12学年のレベルにわたってカバーしている。
各質問に対して、人間-教師の1つの説明が提供され、LLMシミュレーション教師の役割によって6つが生成される。
これらの役割は、実際の教育実践で観察される教育スタイルや欠点にインスパイアされ、即興的な工学を通してインスタンス化される。
さらに,既存の教育基準に沿った教育的リスク・ルーリックを提案し,事実的正当性,説明的深度と完全性,焦点と妥当性,学生レベルの適切性,イデオロギー的バイアスの5つの相補的リスク・ディメンションを運用する。
すべての説明は、専門家の教師レビューを伴う半自動プロセスを通じてバイナリリスクラベルで注釈付けされる。
最後に、評価のためのEduEVAL-DBの適合性を評価するための予備的検証実験を示す。
我々は,最先端の教育指向モデル(Gemini 2.5 Pro)を軽量なローカルLlama 3.1 8Bモデルと比較し,EduEVAL-DBの教師付き微調整が消費者ハードウェアにデプロイ可能なモデルを用いた教育的リスク検出をサポートするかどうかを検討する。
関連論文リスト
- EduDial: Constructing a Large-scale Multi-turn Teacher-Student Dialogue Corpus [59.693733170193944]
EduDialは総合的な多ターン教師/学生対話データセットである。
EduDialは345のコアナレッジポイントをカバーし、教師と学生エージェントの対話によって生成された34,250の対話セッションで構成されている。
論文 参考訳(メタデータ) (2025-10-14T18:18:43Z) - Decoding Instructional Dialogue: Human-AI Collaborative Analysis of Teacher Use of AI Tool at Scale [9.092920230987684]
大規模言語モデルの教育ツールへの統合は、教師の指導計画に大きな影響を与える可能性がある。
本稿では,140,000以上の教育者-AIメッセージの大規模定性分析のための人間-AI協調手法を提案する。
論文 参考訳(メタデータ) (2025-07-23T23:23:38Z) - Benchmarking the Pedagogical Knowledge of Large Language Models [4.417539128489408]
本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。
これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
論文 参考訳(メタデータ) (2025-06-23T14:49:01Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。
本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文 参考訳(メタデータ) (2022-05-25T00:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。