論文の概要: Using Large Language Models to Assess Tutors' Performance in Reacting to
Students Making Math Errors
- arxiv url: http://arxiv.org/abs/2401.03238v1
- Date: Sat, 6 Jan 2024 15:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:34:42.772941
- Title: Using Large Language Models to Assess Tutors' Performance in Reacting to
Students Making Math Errors
- Title(参考訳): 大規模言語モデルを用いて教師の数学エラーに対する反応性能を評価する
- Authors: Sanjit Kakarla, Danielle Thomas, Jionghao Lin, Shivang Gupta, Kenneth
R. Koedinger
- Abstract要約: 数学の誤りを犯した生徒に対する実生活教師のパフォーマンスを評価するための生成AIの能力について検討する。
その結果, GPT-3.5-Turbo と GPT-4 の双方が, 誤りを犯す生徒に対して反応する基準を評価する能力を示した。
GPT-4は、学生が誤りを犯した事例を過度に同定する傾向があり、しばしば学生の不確実性や、人間の評価者が起こらなかった潜在的な誤りを推測する。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research suggests that tutors should adopt a strategic approach when
addressing math errors made by low-efficacy students. Rather than drawing
direct attention to the error, tutors should guide the students to identify and
correct their mistakes on their own. While tutor lessons have introduced this
pedagogical skill, human evaluation of tutors applying this strategy is arduous
and time-consuming. Large language models (LLMs) show promise in providing
real-time assessment to tutors during their actual tutoring sessions, yet
little is known regarding their accuracy in this context. In this study, we
investigate the capacity of generative AI to evaluate real-life tutors'
performance in responding to students making math errors. By analyzing 50
real-life tutoring dialogues, we find both GPT-3.5-Turbo and GPT-4 demonstrate
proficiency in assessing the criteria related to reacting to students making
errors. However, both models exhibit limitations in recognizing instances where
the student made an error. Notably, GPT-4 tends to overidentify instances of
students making errors, often attributing student uncertainty or inferring
potential errors where human evaluators did not. Future work will focus on
enhancing generalizability by assessing a larger dataset of dialogues and
evaluating learning transfer. Specifically, we will analyze the performance of
tutors in real-life scenarios when responding to students' math errors before
and after lesson completion on this crucial tutoring skill.
- Abstract(参考訳): 教師は,低効率な学生による数学の誤りに対処する上で,戦略的アプローチを採用するべきである。
教師は間違いに直接注意を向けるのではなく、生徒に自分の間違いを特定し修正するよう指導すべきである。
教師の指導は、この教育技術を導入しているが、この戦略を適用した教師の人的評価は困難で時間を要する。
大規模言語モデル(llm)は、実際の指導セッションで教師にリアルタイム評価を提供することを約束しているが、この文脈でその正確性についてはほとんど知られていない。
本研究では,実生活における教師の成績を評価するための生成型aiの能力について検討した。
その結果, GPT-3.5-Turbo と GPT-4 の双方が, 誤りを犯す生徒に対して反応する基準を評価する能力を示した。
しかし、どちらのモデルも、生徒がエラーを犯したインスタンスの認識に制限がある。
特に、GPT-4は、学生が誤りを犯した事例を過度に同定する傾向があり、しばしば学生の不確実性や、人間の評価者が起こらなかった潜在的な誤りを推測する。
今後の研究は、より大きな対話データセットを評価し、学習の伝達を評価することで、一般化性の向上に焦点を当てる。
具体的には,この重要な指導スキルの授業終了前後の数学的誤りに応答する実生活シナリオにおける講師のパフォーマンスを解析する。
関連論文リスト
- Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Improving Assessment of Tutoring Practices using Retrieval-Augmented
Generation [10.419430731115405]
ワン・ワン・ワン・チュータリングは、学習力を高める効果的な指導方法であるが、その効果は家庭教師の能力に左右される。
本研究の目的は, GPT-3.5 や GPT-4 モデルなどの生成事前学習型トランスフォーマー (GPT) を用いて, 教師が社会的情緒的学習戦略を活用できる能力を自動的に評価することである。
論文 参考訳(メタデータ) (2024-02-04T20:42:30Z) - Comparative Analysis of GPT-4 and Human Graders in Evaluating Praise
Given to Students in Synthetic Dialogues [2.3361634876233817]
AIチャットボットChatGPTのような大規模な言語モデルは、実践的な設定で家庭教師に建設的なフィードバックを提供する可能性を秘めている。
AIが生成したフィードバックの正確性はまだ不明であり、ChatGPTのようなモデルが効果的なフィードバックを提供する能力について研究している。
論文 参考訳(メタデータ) (2023-07-05T04:14:01Z) - Can Language Models Teach Weaker Agents? Teacher Explanations Improve
Students via Personalization [84.86241161706911]
教師のLLMは、実際に生徒の推論に介入し、パフォーマンスを向上させることができることを示す。
また,マルチターンインタラクションでは,教師による説明が一般化され,説明データから学習されることを示す。
教師のミスアライメントが学生の成績をランダムな確率に低下させることを、意図的に誤解させることで検証する。
論文 参考訳(メタデータ) (2023-06-15T17:27:20Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。