論文の概要: Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors
- arxiv url: http://arxiv.org/abs/2407.09136v1
- Date: Fri, 12 Jul 2024 10:11:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:57:34.205411
- Title: Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors
- Title(参考訳): 大規模言語モデルチュータを用いた学生共振誤差の段階的検証と修正
- Authors: Nico Daheim, Jakub Macina, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan,
- Abstract要約: 大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
- 参考スコア(独自算出の注目度): 78.53699244846285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) present an opportunity to scale high-quality personalized education to all. A promising approach towards this means is to build dialog tutoring models that scaffold students' problem-solving. However, even though existing LLMs perform well in solving reasoning questions, they struggle to precisely detect student's errors and tailor their feedback to these errors. Inspired by real-world teaching practice where teachers identify student errors and customize their response based on them, we focus on verifying student solutions and show how grounding to such verification improves the overall quality of tutor response generation. We collect a dataset of 1K stepwise math reasoning chains with the first error step annotated by teachers. We show empirically that finding the mistake in a student solution is challenging for current models. We propose and evaluate several verifiers for detecting these errors. Using both automatic and human evaluation we show that the student solution verifiers steer the generation model towards highly targeted responses to student errors which are more often correct with less hallucinations compared to existing baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
これに対する有望なアプローチは、学生の問題解決を支援するダイアログ学習モデルを構築することである。
しかしながら、既存のLLMは推論問題の解法においてよく機能するが、学生の誤りを正確に検出し、これらの誤りに対するフィードバックを調整することは困難である。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発されて、学生のソリューションを検証することに集中し、そのような検証に基礎を置くことによって、教師の反応生成の全体的な品質が向上することを示す。
教師がアノテートした最初のエラーステップで、1K段階の算数推論チェーンのデータセットを収集する。
学生ソリューションの誤りを見つけることは、現在のモデルでは難しいことを実証的に示す。
これらの誤りを検出するための検証器を複数提案し,評価する。
自動評価と人的評価の両方を用いて,既存のベースラインに比べて幻覚の少ない学生の誤りに対する高度に標的を絞った応答に対して,学生のソリューション検証が生成モデルを操ることを示す。
関連論文リスト
- LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models [2.1485350418225244]
大規模言語モデル(LLM)に基づく手法は,プログラムの代入に対するフィードバック生成において大きな可能性を秘めている。
本稿では、LLMを用いて「フィードバック・ラダー」、すなわち、同じ問題とサブミッションのペアに対する複数のレベルのフィードバックを生成する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
論文 参考訳(メタデータ) (2024-05-01T03:52:39Z) - Using Large Language Models to Assess Tutors' Performance in Reacting to
Students Making Math Errors [2.099922236065961]
数学の誤りを犯した生徒に対する実生活教師のパフォーマンスを評価するための生成AIの能力について検討する。
その結果, GPT-3.5-Turbo と GPT-4 の双方が, 誤りを犯す生徒に対して反応する基準を評価する能力を示した。
GPT-4は、学生が誤りを犯した事例を過度に同定する傾向があり、しばしば学生の不確実性や、人間の評価者が起こらなかった潜在的な誤りを推測する。
論文 参考訳(メタデータ) (2024-01-06T15:34:27Z) - MathDial: A Dialogue Tutoring Dataset with Rich Pedagogical Properties
Grounded in Math Reasoning Problems [74.73881579517055]
そこで本稿では,一般学生の誤りを表現した大規模言語モデルを用いて,人間教師の対話を生成する枠組みを提案する。
このフレームワークを用いて3kの1対1の教師-学生対話のデータセットであるMathDialを収集する方法について述べる。
論文 参考訳(メタデータ) (2023-05-23T21:44:56Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。