論文の概要: Leveraging LLMs to Assess Tutor Moves in Real-Life Dialogues: A Feasibility Study
- arxiv url: http://arxiv.org/abs/2506.17410v1
- Date: Fri, 20 Jun 2025 18:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.402767
- Title: Leveraging LLMs to Assess Tutor Moves in Real-Life Dialogues: A Feasibility Study
- Title(参考訳): LLMを用いた実生活対話におけるテュータ移動の評価 : 実現可能性の検討
- Authors: Danielle R. Thomas, Conrad Borchers, Jionghao Lin, Sanjit Kakarla, Shambhavi Bhushan, Erin Gatz, Shivang Gupta, Ralph Abboud, Kenneth R. Koedinger,
- Abstract要約: 数学における中学生を支援する大学学生遠隔教師の無作為に選択した50文字の解析を行った。
GPT-4, GPT-4o, GPT-4-turbo, Gemini-1.5-pro, LearnLM を用いて,教師の2つの指導スキルの適用性を評価する。
- 参考スコア(独自算出の注目度): 3.976073625291173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tutoring improves student achievement, but identifying and studying what tutoring actions are most associated with student learning at scale based on audio transcriptions is an open research problem. This present study investigates the feasibility and scalability of using generative AI to identify and evaluate specific tutor moves in real-life math tutoring. We analyze 50 randomly selected transcripts of college-student remote tutors assisting middle school students in mathematics. Using GPT-4, GPT-4o, GPT-4-turbo, Gemini-1.5-pro, and LearnLM, we assess tutors' application of two tutor skills: delivering effective praise and responding to student math errors. All models reliably detected relevant situations, for example, tutors providing praise to students (94-98% accuracy) and a student making a math error (82-88% accuracy) and effectively evaluated the tutors' adherence to tutoring best practices, aligning closely with human judgments (83-89% and 73-77%, respectively). We propose a cost-effective prompting strategy and discuss practical implications for using large language models to support scalable assessment in authentic settings. This work further contributes LLM prompts to support reproducibility and research in AI-supported learning.
- Abstract(参考訳): チュータリングは学生の業績を改善するが、音声の書き起こしに基づく大規模学習に最も関係している学習行動の特定と研究はオープンな研究課題である。
本研究は,実生活の数学教育における特定の教師の動きを特定し,評価するための生成AIの有用性と拡張性について検討する。
数学における中学生を支援する大学学生遠隔教師の無作為に選択した50文字の解析を行った。
GPT-4, GPT-4o, GPT-4-turbo, Gemini-1.5-pro, LearnLM を用いて,教師の2つの指導スキルの適用性を評価する。
すべてのモデルは、生徒に賞賛を与えるチューター(94~98%の精度)と数学の誤差(82~88%の精度)を確実に検出し、指導者のベストプラクティスへの順守を効果的に評価し、人的判断(83~89%と73~77%)と密接に一致させた。
提案手法は,大規模言語モデルを用いて実環境におけるスケーラブルな評価を支援するために,コスト効率の高いプロンプト戦略を提案する。
この研究は、AI支援学習における再現性と研究を支援するために、LLMのプロンプトにさらに貢献する。
関連論文リスト
- Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文 参考訳(メタデータ) (2025-03-09T03:38:55Z) - Do Tutors Learn from Equity Training and Can Generative AI Assess It? [2.116573423199236]
本研究では,教師のスキル向上のためのオンライン授業において,教師のパフォーマンスを評価する。
教師の自己報告による知識への信頼度の増加に伴い,学習の習得率が著しく向上することがわかった。
この作業では、レッスンログデータ、チューター応答、人間のアノテーション用のルーブリック、生成AIプロンプトのデータセットが利用可能になる。
論文 参考訳(メタデータ) (2024-12-15T17:36:40Z) - Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure [36.83786872708736]
1対1の授業は、最も効果的な教育方法の1つである。
我々は、LSMプロンプトを最適化し、遷移グラフとして表される事前定義されたマルチターンチューリング計画に従うアルゴリズムであるStratLを開発した。
ケーススタディとして,先進的で効果的な学習設計であるProductive Failure (PF) に続く,高校数学のプロトタイプチューターを作成する。
論文 参考訳(メタデータ) (2024-10-03T16:15:41Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Using Large Language Models to Assess Tutors' Performance in Reacting to
Students Making Math Errors [2.099922236065961]
数学の誤りを犯した生徒に対する実生活教師のパフォーマンスを評価するための生成AIの能力について検討する。
その結果, GPT-3.5-Turbo と GPT-4 の双方が, 誤りを犯す生徒に対して反応する基準を評価する能力を示した。
GPT-4は、学生が誤りを犯した事例を過度に同定する傾向があり、しばしば学生の不確実性や、人間の評価者が起こらなかった潜在的な誤りを推測する。
論文 参考訳(メタデータ) (2024-01-06T15:34:27Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Reinforcement Learning Tutor Better Supported Lower Performers in a Math
Task [32.6507926764587]
強化学習は、開発コストを削減し、インテリジェントな学習ソフトウェアの有効性を向上させるための重要なツールとなり得る。
本研究では, 深層強化学習を用いて, 音量の概念を学習する学生に適応的な教育支援を行うことができることを示す。
論文 参考訳(メタデータ) (2023-04-11T02:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。