論文の概要: Are Agents Ready to Teach? A Multi-Stage Benchmark for Real-World Teaching Workflows
- arxiv url: http://arxiv.org/abs/2605.14322v2
- Date: Wed, 20 May 2026 17:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.40717
- Title: Are Agents Ready to Teach? A Multi-Stage Benchmark for Real-World Teaching Workflows
- Title(参考訳): エージェントが教える準備はできているか? 実世界の教師ワークフローのためのマルチステージベンチマーク
- Authors: Zixin Chen, Peng Liu, Rui Sheng, Haobo Li, Jianhong Tu, Xiaodong Deng, Kashun Shum, Dayiheng Liu, Huamin Qu,
- Abstract要約: EduAgentBenchは、教授作業の全範囲でチューターエージェントを評価するための、ソースグラウンドのベンチマークである。
専門的な教育的判断、複数ターンのチューターの配置、Canvasスタイルの教育ワークフローの補完という、3つの機能面にわたる品質管理タスクが150種類含まれている。
我々の知る限り、EduAgentBenchは、チューターエージェントの総合的な教育能力を評価するための理論的かつ現実的なベンチマークである。
- 参考スコア(独自算出の注目度): 48.61619205237941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language agents are increasingly deployed in complex professional workflows, with tutoring emerging as a particularly high-stakes capability that remains largely unmeasured in existing benchmarks. Effective tutor agents require more than producing correct answers or executing accurate tool calls: a robust tutor must diagnose learner state, adapt support over time, make pedagogically justified decisions grounded in educational evidence, and execute interventions within realistic learning-management systems. We introduce EduAgentBench, a source-grounded benchmark for holistically evaluating tutor agents across the full scope of teaching work. It contains 150 quality-controlled tasks across three capability surfaces: professional pedagogical judgment, situated multi-turn tutoring, and Canvas-style teaching workflow completion. Tasks are constructed through a pedagogical-insight-driven pipeline and evaluated with complementary verification signals and human review. Across a comprehensive evaluation of frontier models, our findings reveal that current models are generally capable of bounded pedagogical judgment, but still fall short of professional teaching standards in situated tutoring and autonomous teaching-workflow execution. To our knowledge, EduAgentBench is the first theory-grounded and realistic benchmark for evaluating the holistic teaching capability of tutor agents, providing a measurement foundation for developing future tutor agents that can support realistic teaching work.
- Abstract(参考訳): 言語エージェントは、複雑なプロフェッショナルワークフローにますますデプロイされ、既存のベンチマークでほとんど測定されていない、特に高い評価能力として家庭教師が登場しています。
堅牢な家庭教師は、学習者の状態を診断し、時間の経過とともに支援を適応し、教育的証拠に根ざした教育学的に正当化された決定を下し、現実的な学習管理システム内の介入を実行する必要がある。
EduAgentBenchは、教職の全面的な範囲でチューターエージェントを階層的に評価するための、ソースグラウンドのベンチマークである。
専門的な教育的判断、複数ターンのチューターの配置、Canvasスタイルの教育ワークフローの補完という、3つの機能面にわたる品質管理タスクが150種類含まれている。
タスクは、教育的視点駆動パイプラインを通して構築され、補完的な検証信号と人間のレビューで評価される。
本研究は,フロンティアモデルの包括的評価から,現在のモデルでは一般に境界教育の判断が可能であるが,位置学習や自律型学習ワークフローの実行における専門的な教育基準に欠けていることを明らかにする。
我々の知る限り、EduAgentBenchは、教師エージェントの総合的な教育能力を評価するための最初の理論的および現実的なベンチマークであり、現実的な教育作業を支援する将来の教師エージェントを開発するための測定基盤を提供する。
関連論文リスト
- Evaluating LLMs for Answering Student Questions in Introductory Programming Courses [0.0]
本研究では,CS1プログラミングコースにおける学生の質問に答える上で,大規模言語モデルの安全かつ効果的に支援する能力について検討する。
従来のテキストマッチングメトリクスは、オープンエンドの教育応答を評価するには不十分であるため、独自のLCM-as-a-Judgeメトリックを開発し、検証した。
以上の結果から,ジェミニ3フラッシュなどのモデルが典型的な教育者応答の品質基準を超越し,専門家の教育基準と高い整合性が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-30T11:22:58Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [82.91830877219822]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Training Turn-by-Turn Verifiers for Dialogue Tutoring Agents: The Curious Case of LLMs as Your Coding Tutors [29.04639728020965]
本稿では,学習者の知識状況とターン・バイ・ターン・バイ・ターン・バリデーションを推定し,タスク完了に向けた効果的な指導を確実にする,新しいエージェントワークフローであるTrace-and-Verify(TRAVER)を提案する。
我々のアプローチはコーディングを超えて拡張することができ、人間のタスク学習のための学習エージェントの進化に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-18T22:13:00Z) - PapagAI:Automated Feedback for Reflective Essays [48.4434976446053]
ドクティック理論をベースとして,ハイブリッドAIシステムとして実装された,初のオープンソース自動フィードバックツールを提案する。
本研究の主な目的は,学生の学習成果の向上と,講師の指導活動を補完することである。
論文 参考訳(メタデータ) (2023-07-10T11:05:51Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。