論文の概要: TeachBench: A Syllabus-Grounded Framework for Evaluating Teaching Ability in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21375v1
- Date: Thu, 29 Jan 2026 08:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.659679
- Title: TeachBench: A Syllabus-Grounded Framework for Evaluating Teaching Ability in Large Language Models
- Title(参考訳): TeachBench: 大規模言語モデルの教育能力を評価するためのSyllabus-Groundedフレームワーク
- Authors: Zheng Li, Siyao Song, Jingyuan Ma, Rui Li, Ying Zeng, Minghao Li, Zhifang Sui,
- Abstract要約: 大型言語モデル (LLM) は、教師としての約束を示すが、その教育能力は十分に評価されていない。
マルチターン指導後の学生の成績改善を通じてLLM教育能力を測定するシラバスグラウンド評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.54323572683411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show promise as teaching assistants, yet their teaching capability remains insufficiently evaluated. Existing benchmarks mainly focus on problem-solving or problem-level guidance, leaving knowledge-centered teaching underexplored. We propose a syllabus-grounded evaluation framework that measures LLM teaching capability via student performance improvement after multi-turn instruction. By restricting teacher agents to structured knowledge points and example problems, the framework avoids information leakage and enables reuse of existing benchmarks. We instantiate the framework on Gaokao data across multiple subjects. Experiments reveal substantial variation in teaching effectiveness across models and domains: some models perform well in mathematics, while teaching remains challenging in physics and chemistry. We also find that incorporating example problems does not necessarily improve teaching, as models often shift toward example-specific error correction. Overall, our results highlight teaching ability as a distinct and measurable dimension of LLM behavior.
- Abstract(参考訳): 大型言語モデル (LLM) は、教師としての約束を示すが、その教育能力は十分に評価されていない。
既存のベンチマークでは、主に問題解決や問題解決の指導に重点を置いており、知識中心の教育を過小評価している。
マルチターン指導後の学生の成績改善を通じてLLM教育能力を測定するシラバスグラウンド評価フレームワークを提案する。
教師エージェントを構造化知識ポイントやサンプル問題に制限することにより、情報漏洩を回避し、既存のベンチマークの再利用を可能にする。
複数の分野にわたるガオカオデータのフレームワークをインスタンス化する。
実験では、モデルや領域間での教育効果のかなりのバリエーションが示され、いくつかのモデルは数学でよく機能する一方で、物理学や化学では依然として難しい。
また、モデルが例固有の誤り訂正に向かう場合が多いため、例題問題の導入が必ずしも教育を改善するとは限らないことも見出した。
本研究の結果は,LLM行動の明瞭で測定可能な次元としての教育能力を強調した。
関連論文リスト
- How well do Large Language Models Recognize Instructional Moves? Establishing Baselines for Foundation Models in Educational Discourse [0.15469452301122177]
大規模言語モデル(LLM)は、様々なタスクで教育技術に採用されつつある。
我々は6つのLDMを比較して,授業書の授業動作の分類という,単純だが重要な課題のベースライン性能を推定した。
その結果, ゼロショット性能は中等度であり, 総合例では最先端モデルの性能が有意に向上した。
論文 参考訳(メタデータ) (2025-12-22T22:08:32Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。