論文の概要: Evaluating the Application of Large Language Models to Generate Feedback in Programming Education
- arxiv url: http://arxiv.org/abs/2403.09744v1
- Date: Wed, 13 Mar 2024 23:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:35:10.692311
- Title: Evaluating the Application of Large Language Models to Generate Feedback in Programming Education
- Title(参考訳): プログラミング教育におけるフィードバック生成のための大規模言語モデルの適用性評価
- Authors: Sven Jacobs, Steffen Jaschke,
- Abstract要約: 本研究では,大規模言語モデル,特にGPT-4のプログラミング教育への応用について検討する。
本研究は, GPT-4 を用いてプログラミングタスクに対するフィードバックを提供する Web アプリケーションの設計について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the application of large language models, specifically GPT-4, to enhance programming education. The research outlines the design of a web application that uses GPT-4 to provide feedback on programming tasks, without giving away the solution. A web application for working on programming tasks was developed for the study and evaluated with 51 students over the course of one semester. The results show that most of the feedback generated by GPT-4 effectively addressed code errors. However, challenges with incorrect suggestions and hallucinated issues indicate the need for further improvements.
- Abstract(参考訳): 本研究では,大規模言語モデル,特にGPT-4のプログラミング教育への応用について検討する。
本研究は, GPT-4 を用いてプログラミングタスクに対するフィードバックを提供する Web アプリケーションの設計について概説する。
本研究は,1学期を通して51名の学生を対象に,プログラミングタスクのためのWebアプリケーションを開発した。
その結果, GPT-4が生成したフィードバックの大部分は, コードエラーに効果的に対処していることがわかった。
しかし、誤った提案や幻覚的な問題による課題は、さらなる改善の必要性を示している。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Comparing large language models and human programmers for generating programming code [0.0]
GPT-4は、Gemini UltraやClaude 2など、他の大きな言語モデルよりも大幅に優れている。
この研究で評価されたほとんどのLeetCodeとGeeksforGeeksのコーディングコンテストにおいて、最適のプロンプト戦略を採用するGPT-4は、人間の参加者の85%を上回っている。
論文 参考訳(メタデータ) (2024-03-01T14:43:06Z) - A Novel Approach for Automatic Program Repair using Round-Trip
Translation with Large Language Models [50.86686630756207]
研究によると、ある文の文法的誤りは、それを他の言語に翻訳し、その語を返せば修正できる。
現在の自動プログラム修復(APR)生成モデルは、ソースコードで事前訓練され、修正のために微調整されている。
本稿では,あるプログラミング言語から別のプログラミング言語,あるいは自然言語へのコード変換,そして,その逆といった,微調整ステップをバイパスし,ラウンド・トリップ変換(RTT)を用いる手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T22:36:31Z) - GPT-4 as an interface between researchers and computational software:
improving usability and reproducibility [44.99833362998488]
分子動力学シミュレーションに広く用いられているソフトウェアに焦点をあてる。
英語のタスク記述から GPT-4 で生成された入力ファイルの有用性を定量化する。
GPT-4は,比較的簡単なタスクに対して,正しい入力ファイルを生成することができる。
さらに、GPT-4の入力ファイルからの計算タスクの記述は、ステップバイステップ命令の詳細なセットから、出版物に適した要約記述まで調整することができる。
論文 参考訳(メタデータ) (2023-10-04T14:25:39Z) - Evaluating ChatGPT and GPT-4 for Visual Programming [20.64766977405438]
GPT-3.5 に基づく ChatGPT と GPT-4 の 2 つのモデルを評価する。
その結果,これらのモデルでは,視覚的プログラミングに不可欠な空間的,論理的,プログラム的スキルの組み合わせが困難であることが示唆された。
論文 参考訳(メタデータ) (2023-07-30T22:13:20Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - Exploring the Trade-Offs: Unified Large Language Models vs Local
Fine-Tuned Models for Highly-Specific Radiology NLI Task [49.50140712943701]
NLIタスクにおけるChatGPT/GPT-4の性能評価を行い、タスク関連データサンプルに特化して微調整された他のモデルと比較する。
また,ChatGPT/GPT-4の推論能力について,様々な推論難易度を導入して総合的な調査を行った。
論文 参考訳(メタデータ) (2023-04-18T17:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。