論文の概要: From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench
- arxiv url: http://arxiv.org/abs/2603.02775v1
- Date: Tue, 03 Mar 2026 09:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.727021
- Title: From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench
- Title(参考訳): Solver から Tutor へ:KMP-Bench を用いた LLM の教育的知性の評価
- Authors: Weikang Shi, Houxing Ren, Junting Pan, Aojun Zhou, Ke Wang, Zimu Lu, Yunqiao Yang, Yuxuan Hu, Linda Wei, Mingjie Zhan, Hongsheng Li,
- Abstract要約: KMP-Benchは,大規模言語モデル(LLM)を評価するために設計された,総合的なK-8数学的教育ベンチマークである。
最初のモジュールであるKMP-Dialogueは、6つの基本原理に対して全体論的教育能力を評価する。
第2のモジュールであるKMP-Skillsは、マルチターン問題解決、エラー検出と修正、問題生成を含む基礎的な学習能力の詳細な評価を提供する。
- 参考スコア(独自算出の注目度): 56.66490747967379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show significant potential in AI mathematical tutoring, yet current evaluations often rely on simplistic metrics or narrow pedagogical scenarios, failing to assess comprehensive, multi-turn teaching effectiveness. In this paper, we introduce KMP-Bench, a comprehensive K-8 Mathematical Pedagogical Benchmark designed to assess LLMs from two complementary perspectives. The first module, KMP-Dialogue, evaluates holistic pedagogical capabilities against six core principles (e.g., Challenge, Explanation, Feedback), leveraging a novel multi-turn dialogue dataset constructed by weaving together diverse pedagogical components. The second module, KMP-Skills, provides a granular assessment of foundational tutoring abilities, including multi-turn problem-solving, error detection and correction, and problem generation. Our evaluations on KMP-Bench reveal a key disparity: while leading LLMs excel at tasks with verifiable solutions, they struggle with the nuanced application of pedagogical principles. Additionally, we present KMP-Pile, a large-scale (150K) dialogue dataset. Models fine-tuned on KMP-Pile show substantial improvement on KMP-Bench, underscoring the value of pedagogically-rich training data for developing more effective AI math tutors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIの数学的チュータリングにおいて大きな可能性を示しているが、現在の評価はしばしば、単純化されたメトリクスや狭い教育シナリオに依存しており、包括的なマルチターン教育の有効性を評価できない。
本稿では,2つの相補的な視点からLSMを評価するために設計された,総合的なK-8数式Pedagogical BenchmarkであるKMP-Benchを紹介する。
最初のモジュールであるKMP-Dialogueは、6つの基本原則(例えばチャレンジ、説明、フィードバック)に対して総合的な教育機能を評価し、多様な教育コンポーネントを織り合わせて構築された新しい多ターン対話データセットを活用する。
第2のモジュールであるKMP-Skillsは、マルチターン問題解決、エラー検出と修正、問題生成を含む基礎的な学習能力の詳細な評価を提供する。
KMP-Benchに関する我々の評価では、LLMを指導する者は、検証可能なソリューションでタスクを遂行する一方で、教育原則の微妙な適用に苦慮している。
さらに,大規模(150K)対話データセットであるKMP-Pileを提案する。
KMP-Pileで微調整されたモデルは、KMP-Benchを大幅に改善し、より効果的なAI数学チューターを開発するための、教育的に豊富なトレーニングデータの価値を強調している。
関連論文リスト
- Hierarchical Pedagogical Oversight: A Multi-Agent Adversarial Framework for Reliable AI Tutoring [0.0]
本稿では,構造化された対人合成を教育評価に適用する枠組みである階層的教育監督(HPO)を紹介する。
表面的なコンセンサスに向かって漂う協調的なマルチエージェントシステムとは異なり、HPOは関心事の弁証的分離を強制する。
1,214の中学校数学対話のMRBenchデータセットを用いて,この枠組みを評価する。
論文 参考訳(メタデータ) (2025-12-27T06:42:07Z) - EduDial: Constructing a Large-scale Multi-turn Teacher-Student Dialogue Corpus [59.693733170193944]
EduDialは総合的な多ターン教師/学生対話データセットである。
EduDialは345のコアナレッジポイントをカバーし、教師と学生エージェントの対話によって生成された34,250の対話セッションで構成されている。
論文 参考訳(メタデータ) (2025-10-14T18:18:43Z) - Enabling Multi-Agent Systems as Learning Designers: Applying Learning Sciences to AI Instructional Design [6.080614844688028]
本研究は,教育的専門知識を利用者のプロンプトからLLMの内部アーキテクチャへシフトさせる。
二次数学と理科の学習活動を生成するための3つのシステムを検証した。
論文 参考訳(メタデータ) (2025-08-20T14:44:00Z) - Benchmarking the Pedagogical Knowledge of Large Language Models [4.417539128489408]
本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。
これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
論文 参考訳(メタデータ) (2025-06-23T14:49:01Z) - Pedagogy-R1: Pedagogically-Aligned Reasoning Model with Balanced Educational Benchmark [6.024228339466189]
大規模推論モデル(LRM)は、数学やプログラミングのような構造化領域において強い性能を示す。
LRMは教育的コヒーレンスと現実的な教育行動に欠けることが多い。
Pedagogy-R1は、3つのイノベーションを通じて、教室での利用にLRMを適用するフレームワークである。
論文 参考訳(メタデータ) (2025-05-24T02:18:35Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - From Mimicking to Integrating: Knowledge Integration for Pre-Trained
Language Models [55.137869702763375]
本稿では,新しいPLM再利用パラダイムであるKnowledge Integration(KI)について検討する。
KIは,異なる分類問題に特化している教師-PLMの知識を,多種多様な学生モデルにマージすることを目的としている。
次に,モデル不確かさを意識した知識統合(MUKI)フレームワークを設計し,学生の黄金の監督を回復する。
論文 参考訳(メタデータ) (2022-10-11T07:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。