論文の概要: Feedback-Generation for Programming Exercises With GPT-4
- arxiv url: http://arxiv.org/abs/2403.04449v2
- Date: Thu, 4 Jul 2024 07:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 23:43:30.980996
- Title: Feedback-Generation for Programming Exercises With GPT-4
- Title(参考訳): GPT-4によるプログラミング演習のためのフィードバック生成
- Authors: Imen Azaiz, Natalie Kiesler, Sven Strickroth,
- Abstract要約: 本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ever since Large Language Models (LLMs) and related applications have become broadly available, several studies investigated their potential for assisting educators and supporting students in higher education. LLMs such as Codex, GPT-3.5, and GPT 4 have shown promising results in the context of large programming courses, where students can benefit from feedback and hints if provided timely and at scale. This paper explores the quality of GPT-4 Turbo's generated output for prompts containing both the programming task specification and a student's submission as input. Two assignments from an introductory programming course were selected, and GPT-4 was asked to generate feedback for 55 randomly chosen, authentic student programming submissions. The output was qualitatively analyzed regarding correctness, personalization, fault localization, and other features identified in the material. Compared to prior work and analyses of GPT-3.5, GPT-4 Turbo shows notable improvements. For example, the output is more structured and consistent. GPT-4 Turbo can also accurately identify invalid casing in student programs' output. In some cases, the feedback also includes the output of the student program. At the same time, inconsistent feedback was noted such as stating that the submission is correct but an error needs to be fixed. The present work increases our understanding of LLMs' potential, limitations, and how to integrate them into e-assessment systems, pedagogical scenarios, and instructing students who are using applications based on GPT-4.
- Abstract(参考訳): LLM(Large Language Models)とその関連アプリケーションが広く普及して以来、教育者支援や高等教育における支援の可能性を調査してきた。
Codex, GPT-3.5, GPT 4 などの LLM は,大規模なプログラミングコースのコンテキストにおいて有望な結果を示している。
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
導入プログラミングコースからの2つの課題が選択され、GPT-4は55のランダムに選択された真正な学生プログラミングの応募に対してフィードバックを生成するように求められた。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
GPT-3.5の以前の研究や分析と比較すると、GPT-4ターボは顕著な改善を示した。
例えば、出力はより構造化され、一貫性がある。
GPT-4 Turboは、学生プログラムの出力の不正なケーシングを正確に識別する。
フィードバックには学生プログラムの出力も含まれる場合もある。
同時に、提出が正しいがエラーを修正する必要があるというような矛盾したフィードバックも指摘されている。
本研究は, LLMのポテンシャル, 限界, 電子評価システムへの統合方法, 教育シナリオ, GPT-4 を応用した学生の指導方法の理解を深めるものである。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Leveraging Lecture Content for Improved Feedback: Explorations with GPT-4 and Retrieval Augmented Generation [0.0]
本稿では,大規模言語モデルによるプログラミングタスクのフィードバックを改善するために,検索拡張生成(Retrieval Augmented Generation)を提案する。
対応する講義記録は転写され、外部知識源としてLarge Language Model GPT-4で利用可能となった。
この目的は、幻覚を予防し、講義の技術的用語やフレーズの使用を強制することである。
論文 参考訳(メタデータ) (2024-05-05T18:32:06Z) - Evaluating the Application of Large Language Models to Generate Feedback in Programming Education [0.0]
本研究では,大規模言語モデル,特にGPT-4のプログラミング教育への応用について検討する。
本研究は, GPT-4 を用いてプログラミングタスクに対するフィードバックを提供する Web アプリケーションの設計について概説する。
論文 参考訳(メタデータ) (2024-03-13T23:14:35Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Real Customization or Just Marketing: Are Customized Versions of Chat
GPT Useful? [0.0]
OpenAIは、自然言語のWebインターフェースでモデルを微調整する可能性をローンチした。
この研究は、OpenAIが最近立ち上げたカスタマイズされたGPTの可能性を評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-27T15:46:15Z) - GPT-4 as an interface between researchers and computational software:
improving usability and reproducibility [44.99833362998488]
分子動力学シミュレーションに広く用いられているソフトウェアに焦点をあてる。
英語のタスク記述から GPT-4 で生成された入力ファイルの有用性を定量化する。
GPT-4は,比較的簡単なタスクに対して,正しい入力ファイルを生成することができる。
さらに、GPT-4の入力ファイルからの計算タスクの記述は、ステップバイステップ命令の詳細なセットから、出版物に適した要約記述まで調整することができる。
論文 参考訳(メタデータ) (2023-10-04T14:25:39Z) - Large Language Models (GPT) for automating feedback on programming
assignments [0.0]
我々は,プログラミング課題を解決するためのパーソナライズされたヒントを生成するために,OpenAIのGPT-3.5モデルを採用している。
学生はGPT生成ヒントの有用性を肯定的に評価した。
論文 参考訳(メタデータ) (2023-06-30T21:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。