論文の概要: Towards Adaptive Feedback with AI: Comparing the Feedback Quality of LLMs and Teachers on Experimentation Protocols
- arxiv url: http://arxiv.org/abs/2502.12842v1
- Date: Tue, 18 Feb 2025 13:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:08.652120
- Title: Towards Adaptive Feedback with AI: Comparing the Feedback Quality of LLMs and Teachers on Experimentation Protocols
- Title(参考訳): AIによる適応的フィードバック : 実験プロトコルにおけるLLMと教師のフィードバック品質の比較
- Authors: Kathrin Seßler, Arne Bewersdorff, Claudia Nerdel, Enkelejda Kasneci,
- Abstract要約: 本研究では,大規模言語モデル(LLM)のフィードバック品質を,人間教師や理科教育専門家のフィードバック品質と比較した。
その結果,LLMによるフィードバックは,教師や専門家の全体的な品質に有意な差は認められなかった。
- 参考スコア(独自算出の注目度): 8.71931996488953
- License:
- Abstract: Effective feedback is essential for fostering students' success in scientific inquiry. With advancements in artificial intelligence, large language models (LLMs) offer new possibilities for delivering instant and adaptive feedback. However, this feedback often lacks the pedagogical validation provided by real-world practitioners. To address this limitation, our study evaluates and compares the feedback quality of LLM agents with that of human teachers and science education experts on student-written experimentation protocols. Four blinded raters, all professionals in scientific inquiry and science education, evaluated the feedback texts generated by 1) the LLM agent, 2) the teachers and 3) the science education experts using a five-point Likert scale based on six criteria of effective feedback: Feed Up, Feed Back, Feed Forward, Constructive Tone, Linguistic Clarity, and Technical Terminology. Our results indicate that LLM-generated feedback shows no significant difference to that of teachers and experts in overall quality. However, the LLM agent's performance lags in the Feed Back dimension, which involves identifying and explaining errors within the student's work context. Qualitative analysis highlighted the LLM agent's limitations in contextual understanding and in the clear communication of specific errors. Our findings suggest that combining LLM-generated feedback with human expertise can enhance educational practices by leveraging the efficiency of LLMs and the nuanced understanding of educators.
- Abstract(参考訳): 科学的調査における学生の成功を促進するためには,効果的なフィードバックが不可欠である。
人工知能の進歩により、大規模言語モデル(LLM)は、即時かつ適応的なフィードバックを提供する新しい可能性を提供する。
しかし、このフィードバックは現実の実践者が提供した教育的な検証を欠いていることが多い。
この制限に対処するため,本研究では,LLMエージェントのフィードバック品質を,学生による実験プロトコルに関する人間教師や理科教育専門家のフィードバック品質と比較した。
科学的調査と科学教育の専門職である4人のブラインドレイターが、フィードバックテキストの評価を行った。
1) LLM エージェント。
2【教師・教師】
3) 理科教育の専門家は, フィードバックの有効基準として, フィードアップ, フィードバックバック, フィードフォワード, コンストラクティブトーン, 言語的明瞭度, 技術的ターミノロジーの6つを基準として, 5点様の尺度を用いた。
その結果,LLMによるフィードバックは,教師や専門家の全体的な品質に有意な差は認められなかった。
しかしながら、LLMエージェントのパフォーマンスラグは、学生の作業コンテキスト内のエラーを特定し、説明することを含むフィードバックディメンションにある。
質的な分析は、文脈的理解と特定のエラーの明確なコミュニケーションにおけるLLMエージェントの限界を強調した。
本研究は, LLMの効率と教育者の微妙な理解を活かして, LLM生成フィードバックと人間の専門知識を組み合わせることで, 教育実践の促進を図っている。
関連論文リスト
- Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models [30.759154473275043]
本研究では,大規模言語モデル(LLM)の教師として教育における質問能力を評価するためのベンチマークを紹介する。
関連性, カバレッジ, 代表性, 一貫性の4つの指標を適用し, LLMのアウトプットの教育的品質を評価する。
以上の結果から, GPT-4は一般・人文・理科教育において有意な可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T15:36:30Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Supporting Self-Reflection at Scale with Large Language Models: Insights from Randomized Field Experiments in Classrooms [7.550701021850185]
本研究では,大規模言語モデル (LLMs) が学生の反省会後リフレクションに役立てる可能性について検討する。
大学コンピュータサイエンス科でランダムフィールド実験を2回行った。
論文 参考訳(メタデータ) (2024-06-01T02:41:59Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Impact of Guidance and Interaction Strategies for LLM Use on Learner Performance and Perception [19.335003380399527]
大規模言語モデル(LLM)は、その教育的有用性を探求する研究の増加とともに、有望な道を提供する。
本研究は,LLM支援学習環境の形成において,教師が果たす役割を強調した。
論文 参考訳(メタデータ) (2023-10-13T01:21:52Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。