Fugu-MT 論文翻訳(概要): Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors

論文の概要: Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors

arxiv url: http://arxiv.org/abs/2412.09416v1
Date: Thu, 12 Dec 2024 16:24:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.084547
Title: Unifying AI Tutor Evaluation: An Evaluation Taxonomy for Pedagogical Ability Assessment of LLM-Powered AI Tutors
Title（参考訳）: AIチュータ評価の統一化:LLM駆動型AIチュータの教育能力評価のための評価分類法
Authors: Kaushal Kumar Maurya, KV Aditya Srivatsa, Kseniia Petukhova, Ekaterina Kochmar,
Abstract要約: 我々は,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効かどうかを検討する。本研究では,キーラーニング科学の原則に基づく8つの教育次元を持つ統一的な評価分類法を提案する。 MRBench -- 192の会話と1,596の回答を含む新しい評価ベンチマーク。
参考スコア（独自算出の注目度）: 7.834688858839734
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In this paper, we investigate whether current state-of-the-art large language models (LLMs) are effective as AI tutors and whether they demonstrate pedagogical abilities necessary for good AI tutoring in educational dialogues. Previous efforts towards evaluation have been limited to subjective protocols and benchmarks. To bridge this gap, we propose a unified evaluation taxonomy with eight pedagogical dimensions based on key learning sciences principles, which is designed to assess the pedagogical value of LLM-powered AI tutor responses grounded in student mistakes or confusion in the mathematical domain. We release MRBench -- a new evaluation benchmark containing 192 conversations and 1,596 responses from seven state-of-the-art LLM-based and human tutors, providing gold annotations for eight pedagogical dimensions. We assess reliability of the popular Prometheus2 LLM as an evaluator and analyze each tutor's pedagogical abilities, highlighting which LLMs are good tutors and which ones are more suitable as question-answering systems. We believe that the presented taxonomy, benchmark, and human-annotated labels will streamline the evaluation process and help track the progress in AI tutors' development.
Abstract（参考訳）: 本稿では,現在最先端の大規模言語モデル (LLM) がAI家庭教師として有効か,教育対話における優れたAI家庭教師に必要な教育的能力を示すかを検討する。これまでの評価への取り組みは、主観的なプロトコルやベンチマークに限られていた。このギャップを埋めるため,学生のミスや数学領域の混乱に起因したLLMを用いたAI教師応答の教育的価値を評価することを目的とした,キーラーニング科学の原則に基づく8つの教育的次元を持つ統一的な評価分類法を提案する。 MRBench - 192の会話と1,596の回答を含む新しい評価ベンチマーク。我々は,人気のあるPrometheus2 LLMの信頼性を評価対象として評価し,各教官の教育能力を分析し,どの教官がよい教官であり,どの教官が質問応答システムに適しているかを明らかにする。提案された分類学、ベンチマーク、人間による注釈付きラベルは、評価プロセスの合理化と、AI家庭教師の発展の進捗の追跡に役立つと信じている。

関連論文リスト

PEMUTA: Pedagogically-Enriched Multi-Granular Undergraduate Thesis Assessment [7.912100274675651]
UGTE(Undergraduatethesis)は、学生の大学時代における累積的な学術的発展を評価するのに欠かせない役割を担っている。大規模言語モデル(LLM)は先進的な教育知能を持つが、通常は1つの評価スコアしか持たない総合的な評価に重点を置いている。我々は,多粒性UGTE評価のためのLLMからドメイン固有知識を活性化する,教育に富んだフレームワークPEMUTAのパイオニアである。
論文参考訳（メタデータ） (2025-07-25T06:47:26Z)
A Practical Guide for Supporting Formative Assessment and Feedback Using Generative AI [0.0]
大規模言語モデル(LLM)は、学生、教師、同僚が「学習者が行く場所」、「学習者が現在いる場所」、「学習者を前進させる方法」を理解するのに役立つ。本総説では,LSMを形式的評価に統合するための総合的な基盤を提供する。
論文参考訳（メタデータ） (2025-05-29T12:52:43Z)
EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文参考訳（メタデータ） (2025-04-21T07:48:20Z)
Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文参考訳（メタデータ） (2025-03-09T03:38:55Z)
MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。 MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文参考訳（メタデータ） (2025-02-26T08:43:47Z)
Do Tutors Learn from Equity Training and Can Generative AI Assess It? [2.116573423199236]
本研究では,教師のスキル向上のためのオンライン授業において,教師のパフォーマンスを評価する。教師の自己報告による知識への信頼度の増加に伴い,学習の習得率が著しく向上することがわかった。この作業では、レッスンログデータ、チューター応答、人間のアノテーション用のルーブリック、生成AIプロンプトのデータセットが利用可能になる。
論文参考訳（メタデータ） (2024-12-15T17:36:40Z)
An Exploration of Higher Education Course Evaluation by Large Language Models [4.943165921136573]
人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
論文参考訳（メタデータ） (2024-11-03T20:43:52Z)
Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文参考訳（メタデータ） (2024-10-23T18:37:14Z)
Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文参考訳（メタデータ） (2024-08-20T15:36:30Z)
Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文参考訳（メタデータ） (2024-07-07T00:17:24Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Large Language Models as Evaluators for Recommendation Explanations [23.938202791437337]
我々は,LLMがレコメンデーション・リコメンデーション・リコメンデーションの評価に役立てられるかどうかを検討する。我々は,評価者ラベルとユーザが提供する真実との相関を計測するために,3段階のメタ評価戦略を設計し,適用する。本研究は,LLMを評価対象として活用することは,レコメンデーション説明文の評価において,正確かつ再現可能で費用対効果の高いソリューションであることを示す。
論文参考訳（メタデータ） (2024-06-05T13:23:23Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。