論文の概要: Dean of LLM Tutors: Exploring Comprehensive and Automated Evaluation of LLM-generated Educational Feedback via LLM Feedback Evaluators
- arxiv url: http://arxiv.org/abs/2508.05952v1
- Date: Fri, 08 Aug 2025 02:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.050368
- Title: Dean of LLM Tutors: Exploring Comprehensive and Automated Evaluation of LLM-generated Educational Feedback via LLM Feedback Evaluators
- Title(参考訳): LLMチュータのディーン:LLMフィードバック評価器を用いたLLM生成教育フィードバックの総合的評価と自動評価
- Authors: Keyang Qian, Yixin Cheng, Rui Guan, Wei Dai, Flora Jin, Kaixun Yang, Sadia Nawaz, Zachari Swiecki, Guanliang Chen, Lixiang Yan, Dragan Gašević,
- Abstract要約: LLM フィードバック評価器を用いて,LLM チュータが生成したフィードバックを自動的に,包括的に評価する手法を提案する。
これにより、低品質なフィードバックを拒否することができ、LLMチューターが評価結果に基づいて生成されたフィードバックを改善することができる。
その結果,o3-proはフィードバックのゼロショットラベリングにおいて最高の性能を示し,o4-miniは数ショットラベリングにおいて最高の性能を示した。
- 参考スコア(独自算出の注目度): 5.838566576554449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of LLM tutors to provide automated educational feedback to students on student assignment submissions has received much attention in the AI in Education field. However, the stochastic nature and tendency for hallucinations in LLMs can undermine both quality of learning experience and adherence to ethical standards. To address this concern, we propose a method that uses LLM feedback evaluators (DeanLLMs) to automatically and comprehensively evaluate feedback generated by LLM tutor for submissions on university assignments before it is delivered to students. This allows low-quality feedback to be rejected and enables LLM tutors to improve the feedback they generated based on the evaluation results. We first proposed a comprehensive evaluation framework for LLM-generated educational feedback, comprising six dimensions for feedback content, seven for feedback effectiveness, and three for hallucination types. Next, we generated a virtual assignment submission dataset covering 85 university assignments from 43 computer science courses using eight commonly used commercial LLMs. We labelled and open-sourced the assignment dataset to support the fine-tuning and evaluation of LLM feedback evaluators. Our findings show that o3-pro demonstrated the best performance in zero-shot labelling of feedback while o4-mini demonstrated the best performance in few-shot labelling of feedback. Moreover, GPT-4.1 achieved human expert level performance after fine-tuning (Accuracy 79.8%, F1-score 79.4%; human average Accuracy 78.3%, F1-score 82.6%). Finally, we used our best-performance model to evaluate 2,000 assignment feedback instances generated by 10 common commercial LLMs, 200 each, to compare the quality of feedback generated by different LLMs. Our LLM feedback evaluator method advances our ability to automatically provide high-quality and reliable educational feedback to students.
- Abstract(参考訳): 学生の課題提出に対する自動的な教育フィードバックを提供するためのLLMチューターの使用は、AI in Education分野において大きな注目を集めている。
しかし、LLMの確率的性質と幻覚傾向は、学習経験の質と倫理基準の遵守の両方を損なう可能性がある。
そこで本研究では,LLM フィードバック評価器 (DeanLLMs) を用いて,学生に提供前に大学への課題の提出に対して,LLM チュータが生成したフィードバックを自動的に,包括的に評価する手法を提案する。
これにより、低品質なフィードバックを拒否することができ、LLMチューターが評価結果に基づいて生成されたフィードバックを改善することができる。
まず, フィードバック内容の6次元, フィードバック効果の7次元, 幻覚の3次元からなる, LLM生成型教育フィードバックのための総合的評価フレームワークを提案する。
次に, コンピュータ科学科43科85科85科85科85科85科を, 8科8科8科の商業LLMを用いて仮想割当てデータセットを作成する。
LLMフィードバック評価器の微調整と評価を支援するために,課題データセットのラベルとオープンソース化を行った。
その結果,o3-proはフィードバックのゼロショットラベリングにおいて最高の性能を示し,o4-miniは数ショットラベリングにおいて最高の性能を示した。
さらに、GPT-4.1は微調整後に人間の専門家レベルのパフォーマンスを達成した(精度79.8%、F1スコア79.4%、人間平均精度78.3%、F1スコア82.6%)。
最後に,10個の商用LLMが生成する2000個の代入フィードバックインスタンスを評価するため,各LLMが生成するフィードバックの質を比較した。
LLMフィードバック評価手法は,学生に高品質で信頼性の高い教育フィードバックを自動的に提供する能力を向上させる。
関連論文リスト
- LLM-Generated Feedback Supports Learning If Learners Choose to Use It [1.4843690728082002]
大規模な言語モデル(LLM)は、フィードバックを生成するためにますます使われていますが、学習への影響は未調査です。
本研究では,オンデマンドLLM説明フィードバックが7つのシナリオベース授業における学習にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-06-20T13:59:14Z) - Automated Assignment Grading with Large Language Models: Insights From a Bioinformatics Course [0.0]
自然言語処理と大規模言語モデル(LLM)は、パーソナライズされたフィードバックの効率的な配信を可能にすることで、有望なソリューションを提供する。
自然言語処理と大規模言語モデル(LLM)の最近の進歩は、パーソナライズされたフィードバックの効率的な配信を可能にすることによって、有望なソリューションを提供する。
提案手法により,LLMは人間の評価値に匹敵する評価精度とフィードバック品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2025-01-24T13:59:14Z) - Large Language Model as an Assignment Evaluator: Insights, Feedback, and Challenges in a 1000+ Student Course [49.296957552006226]
大規模言語モデル(LLM)を自動評価に用いることは,NLP研究において重要な評価手法となっている。
本報告では,1028人の大学生を対象に,GPT-4を自動課題評価装置として利用する方法について述べる。
論文 参考訳(メタデータ) (2024-07-07T00:17:24Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。