論文の概要: Benchmarking the Pedagogical Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.18710v2
- Date: Tue, 24 Jun 2025 12:36:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 13:29:37.737054
- Title: Benchmarking the Pedagogical Knowledge of Large Language Models
- Title(参考訳): 大規模言語モデルの教育的知識のベンチマーク
- Authors: Maxime Lelièvre, Amy Waldock, Meng Liu, Natalia Valdés Aspillaga, Alasdair Mackintosh, María José Ogando Portela, Jared Lee, Paul Atherton, Robin A. A. Ince, Oliver G. B. Garrod,
- Abstract要約: 本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。
これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
- 参考スコア(独自算出の注目度): 4.417539128489408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks like Massive Multitask Language Understanding (MMLU) have played a pivotal role in evaluating AI's knowledge and abilities across diverse domains. However, existing benchmarks predominantly focus on content knowledge, leaving a critical gap in assessing models' understanding of pedagogy - the method and practice of teaching. This paper introduces The Pedagogy Benchmark, a novel dataset designed to evaluate large language models on their Cross-Domain Pedagogical Knowledge (CDPK) and Special Education Needs and Disability (SEND) pedagogical knowledge. These benchmarks are built on a carefully curated set of questions sourced from professional development exams for teachers, which cover a range of pedagogical subdomains such as teaching strategies and assessment methods. Here we outline the methodology and development of these benchmarks. We report results for 97 models, with accuracies spanning a range from 28% to 89% on the pedagogical knowledge questions. We consider the relationship between cost and accuracy and chart the progression of the Pareto value frontier over time. We provide online leaderboards at https://rebrand.ly/pedagogy which are updated with new models and allow interactive exploration and filtering based on various model properties, such as cost per token and open-vs-closed weights, as well as looking at performance in different subjects. LLMs and generative AI have tremendous potential to influence education and help to address the global learning crisis. Education-focused benchmarks are crucial to measure models' capacities to understand pedagogical concepts, respond appropriately to learners' needs, and support effective teaching practices across diverse contexts. They are needed for informing the responsible and evidence-based deployment of LLMs and LLM-based tools in educational settings, and for guiding both development and policy decisions.
- Abstract(参考訳): MMLU(Massive Multitask Language Understanding)のようなベンチマークは、さまざまなドメインにわたるAIの知識と能力を評価する上で重要な役割を果たしている。
しかし、既存のベンチマークは主にコンテンツ知識に焦点を当てており、モデルによる教育に対する理解(教育の方法と実践)を評価する上で重要なギャップを残している。
The Pedagogy Benchmarkは,Cross-Domain Pedagogical Knowledge (CDPK) と Special Education Needs and Disability (SEND) の教育的知識に基づいて,大規模言語モデルを評価するために設計された新しいデータセットである。
これらのベンチマークは、教育戦略や評価方法などの教育サブドメインを網羅する、教員のための専門的開発試験から得られた、慎重に収集された質問に基づいて構築されている。
ここではこれらのベンチマークの方法論と開発について概説する。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
コストと精度の関係を考慮し、時間とともにPareto価値フロンティアの進展をグラフ化する。
私たちはhttps://rebrand.ly/pedagogyでオンラインのリーダーボードを提供し、新しいモデルで更新され、トークンごとのコストやオープンvsクロージングウェイトといったさまざまなモデル特性に基づいたインタラクティブな探索とフィルタリングを可能にします。
LLMと生成AIは、教育に影響を及ぼし、世界的な学習危機に対処する上で、大きな可能性を秘めている。
教育中心のベンチマークは、教育概念を理解し、学習者のニーズに適切に対応し、多様な文脈で効果的な教育実践をサポートするために、モデルの能力を測定するために不可欠である。
これらは、LLMとLLMベースのツールの教育環境における責任とエビデンスに基づく展開を通知し、開発と政策決定の両方を導くために必要である。
関連論文リスト
- From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [76.09281171131941]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - LLMs as Educational Analysts: Transforming Multimodal Data Traces into Actionable Reading Assessment Reports [6.523137821124204]
本研究では,多モーダルデータを用いた意味的読解の導出について検討する。
我々は、異なる読取行動パターンを識別するために教師なし学習技術を用いる。
大規模言語モデル(LLM)は、派生した情報を教育者のための実行可能なレポートに合成する。
論文 参考訳(メタデータ) (2025-03-03T22:34:08Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。
関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。
以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T15:36:30Z) - Scaffolding Language Learning via Multi-modal Tutoring Systems with Pedagogical Instructions [34.760230622675365]
知的家庭教師システム(ITS)は、人間の家庭教師を模倣し、学習者にカスタマイズされた指導やフィードバックを提供することを目的としている。
生成人工知能の出現に伴い、大規模言語モデル(LLM)は、複雑な会話の相互作用をシステムに付与する。
教育指導がITSの足場形成をいかに促進するかを,子どもに言語学習のための画像記述を指導するケーススタディにより検討した。
論文 参考訳(メタデータ) (2024-04-04T13:22:28Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。