論文の概要: Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology
- arxiv url: http://arxiv.org/abs/2411.03495v1
- Date: Tue, 05 Nov 2024 20:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:46.372834
- Title: Automatic Generation of Question Hints for Mathematics Problems using Large Language Models in Educational Technology
- Title(参考訳): 教育工学における大規模言語モデルを用いた数学問題のための質問ヒントの自動生成
- Authors: Junior Cedric Tonga, Benjamin Clement, Pierre-Yves Oudeyer,
- Abstract要約: 本研究は,Lumge Language Models (LLMs) を教師として用いて,LLMを通してシミュレーションした学生の効果的なヒントを生成することを目的とする。
その結果, モデル誤差は温度設定の上昇とともに増加することがわかった。
興味深いことに、教師としてのLlama-3-8B-インストラクションはGPT-4oよりも全体的なパフォーマンスが良かった。
- 参考スコア(独自算出の注目度): 17.91379291654773
- License:
- Abstract: The automatic generation of hints by Large Language Models (LLMs) within Intelligent Tutoring Systems (ITSs) has shown potential to enhance student learning. However, generating pedagogically sound hints that address student misconceptions and adhere to specific educational objectives remains challenging. This work explores using LLMs (GPT-4o and Llama-3-8B-instruct) as teachers to generate effective hints for students simulated through LLMs (GPT-3.5-turbo, Llama-3-8B-Instruct, or Mistral-7B-instruct-v0.3) tackling math exercises designed for human high-school students, and designed using cognitive science principles. We present here the study of several dimensions: 1) identifying error patterns made by simulated students on secondary-level math exercises; 2) developing various prompts for GPT-4o as a teacher and evaluating their effectiveness in generating hints that enable simulated students to self-correct; and 3) testing the best-performing prompts, based on their ability to produce relevant hints and facilitate error correction, with Llama-3-8B-Instruct as the teacher, allowing for a performance comparison with GPT-4o. The results show that model errors increase with higher temperature settings. Notably, when hints are generated by GPT-4o, the most effective prompts include prompts tailored to specific errors as well as prompts providing general hints based on common mathematical errors. Interestingly, Llama-3-8B-Instruct as a teacher showed better overall performance than GPT-4o. Also the problem-solving and response revision capabilities of the LLMs as students, particularly GPT-3.5-turbo, improved significantly after receiving hints, especially at lower temperature settings. However, models like Mistral-7B-Instruct demonstrated a decline in performance as the temperature increased.
- Abstract(参考訳): Intelligent Tutoring Systems (ITS) におけるLarge Language Models (LLMs) によるヒントの自動生成は、学生の学習を促進する可能性を示している。
しかし、学生の誤解に対処し、特定の教育目的に固執する音のヒントを教育的に生成することは依然として困難である。
本研究は,LLM(GPT-3.5-turbo,Llama-3-8B-instruct,Mistral-7B-instruct-v0.3)を教師として用い,認知科学の原理を用いて,LLM(GPT-3.5-turbo,Llama-3-8B-instruct,Mistral-7B-instruct-v0.3)を模擬した効果的なヒントを生成する。
ここでは、いくつかの次元の研究について述べる。
1)2段階数学演習における模擬学生による誤りパターンの同定
2)教師としてのGPT-4oの多様なプロンプトを開発し、シミュレーション学生が自己修正できるヒントを生成する上での有効性を評価する。
3) Llama-3-8B-Instruct を教師として, 関連するヒントを生成し, 誤り訂正を容易にする能力に基づいて, 最高性能のプロンプトを試験し, GPT-4o との比較を行った。
その結果, モデル誤差は温度設定の上昇とともに増加することがわかった。
特に GPT-4o によってヒントが生成される場合、最も効果的なプロンプトには、特定のエラーに合わせたプロンプトや、一般的な数学的エラーに基づく一般的なヒントを提供するプロンプトが含まれる。
興味深いことに、教師としてのLlama-3-8B-インストラクションはGPT-4oよりも全体的なパフォーマンスが良かった。
また,学生,特にGPT-3.5-turboは,特に低温条件下でのヒントを受信した後に有意に改善した。
しかし、Mistral-7B-Instructのようなモデルでは温度が上がるにつれて性能が低下した。
関連論文リスト
- SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Generative AI for Enhancing Active Learning in Education: A Comparative Study of GPT-3.5 and GPT-4 in Crafting Customized Test Questions [2.0411082897313984]
本研究では, LLM, 特に GPT-3.5 と GPT-4 が, グレード9の算数に適した質問をいかに展開できるかを検討する。
反復的手法を用いることで、これらのモデルは、シミュレーションされた「学生」モデルからのフィードバックに応じて、難易度と内容に基づいて質問を調整する。
論文 参考訳(メタデータ) (2024-06-20T00:25:43Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Let GPT be a Math Tutor: Teaching Math Word Problem Solvers with
Customized Exercise Generation [39.282695549919495]
本稿では,大規模言語モデル(LLM)からより小さく,より効率的な学生モデルへ,数学用語の問題解決能力を蒸留する新しい手法を提案する。
本手法は, 学生モデルの弱点を考察し, 教育科学の原則に沿った目標運動を生成することによって, 適切な学習体験を育成することを目的としている。
論文 参考訳(メタデータ) (2023-05-22T17:36:14Z) - Reframing Instructional Prompts to GPTk's Language [72.69833640335519]
本稿では,モデル設計者が言語モデルに対して効果的なプロンプトを作成するためのリフレーミング手法を提案する。
その結果、リフレーミングはサンプルの複雑さを減らしながら、数ショットの学習性能を14%向上させることがわかった。
GPT3では、大規模なデータセットでモデルやプロンプトをチューニングすることは不可能である。
論文 参考訳(メタデータ) (2021-09-16T09:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。