論文の概要: Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions?
- arxiv url: http://arxiv.org/abs/2405.06414v1
- Date: Fri, 10 May 2024 11:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:58:09.043424
- Title: Can Large Language Models Replicate ITS Feedback on Open-Ended Math Questions?
- Title(参考訳): 大規模言語モデルはオープンエンディング数学の質問に対するフィードバックを再現できるか?
- Authors: Hunter McNichols, Jaewook Lee, Stephen Fancsali, Steve Ritter, Andrew Lan,
- Abstract要約: 本研究では,大規模言語モデルのオープンエンド数学質問に対するフィードバック生成能力について検討する。
オープンソースのモデルとプロプライエタリなモデルの両方が、トレーニング中に見たフィードバックを複製する可能性を示していますが、以前は見つからなかった学生のエラーに対して、十分に一般化していません。
- 参考スコア(独自算出の注目度): 3.7399138244928145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent Tutoring Systems (ITSs) often contain an automated feedback component, which provides a predefined feedback message to students when they detect a predefined error. To such a feedback component, we often resort to template-based approaches. These approaches require significant effort from human experts to detect a limited number of possible student errors and provide corresponding feedback. This limitation is exemplified in open-ended math questions, where there can be a large number of different incorrect errors. In our work, we examine the capabilities of large language models (LLMs) to generate feedback for open-ended math questions, similar to that of an established ITS that uses a template-based approach. We fine-tune both open-source and proprietary LLMs on real student responses and corresponding ITS-provided feedback. We measure the quality of the generated feedback using text similarity metrics. We find that open-source and proprietary models both show promise in replicating the feedback they see during training, but do not generalize well to previously unseen student errors. These results suggest that despite being able to learn the formatting of feedback, LLMs are not able to fully understand mathematical errors made by students.
- Abstract(参考訳): Intelligent Tutoring Systems (ITS) は、しばしば自動フィードバックコンポーネントを含み、事前に定義されたエラーを検出すると、学生に事前に定義されたフィードバックメッセージを提供する。
このようなフィードバックコンポーネントでは、テンプレートベースのアプローチを採用しています。
これらのアプローチは、限られた数の学生エラーを検出し、対応するフィードバックを提供するために、人間の専門家による多大な努力を必要とする。
この制限は、多くの異なる誤りがあるようなオープンエンド数学の質問で例示される。
本研究は,テンプレートベースアプローチを用いた確立されたITSの手法と同様,大規模言語モデル(LLM)のオープンエンド数学質問に対するフィードバックを生成する能力について検討する。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方を,実際の学生の反応とそれに対応するITSによるフィードバックに基づいて微調整する。
テキスト類似度指標を用いて,生成したフィードバックの質を測定した。
オープンソースのモデルとプロプライエタリなモデルの両方が、トレーニング中に見たフィードバックを複製する可能性を示していますが、以前は見つからなかった学生のエラーに対して、十分に一般化していません。
これらの結果から,LLMはフィードバックの形式化を学べるが,学生の数学的誤りを十分に理解できないことが示唆された。
関連論文リスト
- Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models [2.1485350418225244]
大規模言語モデル(LLM)に基づく手法は,プログラムの代入に対するフィードバック生成において大きな可能性を秘めている。
本稿では、LLMを用いて「フィードバック・ラダー」、すなわち、同じ問題とサブミッションのペアに対する複数のレベルのフィードバックを生成する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
論文 参考訳(メタデータ) (2024-05-01T03:52:39Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Extracting Self-Consistent Causal Insights from Users Feedback with LLMs
and In-context Learning [11.609805521822878]
Microsoft Windows Feedback Hubは、パワーやバッテリなどの重要なトピックを含む、幅広い分野の顧客からのフィードバックを受け取るように設計されている。
ユーザのフィードバックをテレメトリ信号に関連付けるために,Double Machine Learning(DML)を活用している。
私たちのアプローチでは、既知の問題を抽出し、新しいバグを発見し、バグにつながるイベントのシーケンスを特定できます。
論文 参考訳(メタデータ) (2023-12-11T20:12:46Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - A large language model-assisted education tool to provide feedback on
open-ended responses [2.624902795082451]
本稿では,大規模言語モデル (LLM) をインストラクター定義基準でガイドし,オープンエンド質問に対する応答を自動化するツールを提案する。
本ツールでは,素早いパーソナライズされたフィードバックを提供することで,学生が知識を迅速にテストし,改善すべき領域を特定できる。
論文 参考訳(メタデータ) (2023-07-25T19:49:55Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z) - Generating High-Precision Feedback for Programming Syntax Errors using
Large Language Models [23.25258654890813]
大規模言語モデル(LLM)は,学生のフィードバックを自動的に生成することによって,プログラミング教育の強化に大きく貢献する。
Codexを利用した高精度フィードバック生成技術であるPyFiXVを紹介する。
論文 参考訳(メタデータ) (2023-01-24T13:00:25Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。