論文の概要: EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework
- arxiv url: http://arxiv.org/abs/2504.14928v1
- Date: Mon, 21 Apr 2025 07:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:04:22.416348
- Title: EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework
- Title(参考訳): EducationQ:マルチエージェント対話フレームワークによるLLMの教育能力の評価
- Authors: Yao Shi, Rongkeng Liang, Yong Xu,
- Abstract要約: 大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
- 参考スコア(独自算出の注目度): 9.76455227840645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) increasingly serve as educational tools, yet evaluating their teaching capabilities remains challenging due to the resource-intensive, context-dependent, and methodologically complex nature of teacher-student interactions. We introduce EducationQ, a multi-agent dialogue framework that efficiently assesses teaching capabilities through simulated dynamic educational scenarios, featuring specialized agents for teaching, learning, and evaluation. Testing 14 LLMs across major AI Organizations (OpenAI, Meta, Google, Anthropic, and others) on 1,498 questions spanning 13 disciplines and 10 difficulty levels reveals that teaching effectiveness does not correlate linearly with model scale or general reasoning capabilities - with some smaller open-source models outperforming larger commercial counterparts in teaching contexts. This finding highlights a critical gap in current evaluations that prioritize knowledge recall over interactive pedagogy. Our mixed-methods evaluation, combining quantitative metrics with qualitative analysis and expert case studies, identifies distinct pedagogical strengths employed by top-performing models (e.g., sophisticated questioning strategies, adaptive feedback mechanisms). Human expert evaluations show 78% agreement with our automated qualitative analysis of effective teaching behaviors, validating our methodology. EducationQ demonstrates that LLMs-as-teachers require specialized optimization beyond simple scaling, suggesting next-generation educational AI prioritize targeted enhancement of specific pedagogical effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力の評価は、教師と学生の相互作用のリソース集約、文脈依存、方法論的に複雑な性質のため、依然として困難である。
本研究では,動的シナリオをシミュレートして指導能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介し,教育・学習・評価のための特殊エージェントを特徴とする。
主要なAI組織(OpenAI、Meta、Google、Anthhropicなど)を対象に、13の規律と10の難易度にまたがる1,498の質問に対して14のLSMをテストすると、教育効果がモデルスケールや一般的な推論能力と線形に相関しないことが分かる。
この発見は、インタラクティブな教育よりも知識のリコールを優先する現在の評価における重要なギャップを浮き彫りにする。
定量的メトリクスと定性分析と専門ケーススタディを組み合わせた混合手法評価では,トップパフォーマンスモデル(高度な質問方略,適応的フィードバック機構など)が採用する教育的強みを識別する。
人間の専門家による評価は,効果的な指導行動の自動定性分析と78%の一致を示し,方法論を検証した。
EducationQは、LSMs-as-Teachersが単純なスケーリング以上の特別な最適化を必要とすることを実証し、次世代の教育AIが特定の教育効果を高めることを優先していることを示唆している。
関連論文リスト
- Connecting Feedback to Choice: Understanding Educator Preferences in GenAI vs. Human-Created Lesson Plans in K-12 Education -- A Comparative Analysis [11.204345070162592]
ジェネレーティブAI(GenAI)モデルは、教育応用のためにますます研究されている。
本研究は,人間のカリキュラム設計者が作成した授業計画,K-12コンテンツに基づく微調整 LLaMA-2-13b モデル,カスタマイズ GPT-4 モデルを比較した。
K-12数学教育者による大規模嗜好調査を用いて、選好が学級や教示要素によってどのように異なるかを検討する。
論文 参考訳(メタデータ) (2025-04-07T19:28:19Z) - LLM Agents for Education: Advances and Applications [49.3663528354802]
大規模言語モデル(LLM)エージェントは、タスクの自動化と多様な教育アプリケーションにおけるイノベーションの推進において、顕著な能力を示した。
本調査は、LLMエージェントの総合的技術概要を提供することを目的としており、学習者や教育者のより大きな利益に対する影響を高めるために、さらなる研究と協力を促進することを目的としている。
論文 参考訳(メタデータ) (2025-03-14T11:53:44Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors [7.834688858839734]
我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。
本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。
MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。
論文 参考訳(メタデータ) (2024-12-12T16:24:35Z) - Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。
関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。
以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T15:36:30Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education [3.967610895056427]
本稿では,自然言語処理(NLP)技術を活用して,複数のハイ推論教育実践を評価するための最初の研究について述べる。
ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
論文 参考訳(メタデータ) (2024-04-03T04:15:29Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Improving mathematical questioning in teacher training [1.794107419334178]
高忠実でAIに基づくシミュレートされた教室システムにより、教師は効果的な教育戦略をリハーサルすることができる。
本稿では,教師が数学的質問のスキルを実践するのを支援するために,テキストベースの対話型エージェントを構築した。
論文 参考訳(メタデータ) (2021-12-02T05:33:03Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。