論文の概要: AI-enhanced Auto-correction of Programming Exercises: How Effective is
GPT-3.5?
- arxiv url: http://arxiv.org/abs/2311.10737v1
- Date: Tue, 24 Oct 2023 10:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 01:00:53.625738
- Title: AI-enhanced Auto-correction of Programming Exercises: How Effective is
GPT-3.5?
- Title(参考訳): AIによるプログラミング演習の自動補正: GPT-3.5はどの程度有効か?
- Authors: Imen Azaiz, Oliver Deckarm, Sven Strickroth
- Abstract要約: 本稿では、パーソナライズされたコード修正とフィードバック生成におけるAIの可能性について検討する。
GPT-3.5は、実際のエラーではないエラーのローカライズや、幻覚的エラーなど、評価の弱点を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Timely formative feedback is considered as one of the most important drivers
for effective learning. Delivering timely and individualized feedback is
particularly challenging in large classes in higher education. Recently Large
Language Models such as GPT-3 became available to the public that showed
promising results on various tasks such as code generation and code
explanation. This paper investigates the potential of AI in providing
personalized code correction and generating feedback. Based on existing student
submissions of two different real-world assignments, the correctness of the
AI-aided e-assessment as well as the characteristics such as fault
localization, correctness of hints, and code style suggestions of the generated
feedback are investigated. The results show that 73 % of the submissions were
correctly identified as either correct or incorrect. In 59 % of these cases,
GPT-3.5 also successfully generated effective and high-quality feedback.
Additionally, GPT-3.5 exhibited weaknesses in its evaluation, including
localization of errors that were not the actual errors, or even hallucinated
errors. Implications and potential new usage scenarios are discussed.
- Abstract(参考訳): タイムリーな形成的フィードバックは、効果的な学習にとって最も重要な要因の1つと考えられている。
タイムリーで個別化されたフィードバックの提供は、高等教育の大規模クラスでは特に難しい。
最近、gpt-3のような大きな言語モデルが一般公開され、コード生成やコード説明といった様々なタスクで有望な結果が得られた。
本稿では、パーソナライズされたコード修正とフィードバック生成におけるAIの可能性を検討する。
既存の学生による2つの実世界の課題の提出に基づいて,AI支援によるe-アセスメントの正しさと,障害の局所化,ヒントの正しさ,生成したフィードバックのコードスタイルの提案などの特徴について検討した。
その結果,提出品の73 %が正しいか間違っているかのどちらかとして正しく同定された。
これらの症例の59パーセントでは、GPT-3.5も有効で高品質なフィードバックを得られる。
さらに、GPT-3.5は、実際のエラーではないエラーのローカライズや、幻覚的エラーなど、評価の弱点を示した。
意味と潜在的な新しい利用シナリオについて論じる。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - How Can I Improve? Using GPT to Highlight the Desired and Undesired Parts of Open-ended Responses [11.809647985607935]
提案手法は,説明的フィードバックを提供する上で,望ましい,望ましくないコンポーネントを識別することに焦点を当てたシーケンスラベリング手法を提案する。
GPTモデルにより同定された強調された賞賛成分の品質を定量化するため,M-IoU(Modified Intersection over Union)スコアを導入した。
以上の結果から,(1)M-IoUスコアはシーケンス品質評価における人的判断と効果的に相関し,(2)GPT-3.5上での2ショットプロンプトは,努力に基づく評価と成果に基づく評価の認識において良好な性能を示し,(3)M-IoUスコアの0.6が最適微調整GPT-3.5モデルであった。
論文 参考訳(メタデータ) (2024-05-01T02:59:10Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。
我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。
このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文 参考訳(メタデータ) (2023-10-10T09:20:14Z) - Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation [25.317788211120362]
本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
論文 参考訳(メタデータ) (2023-10-05T17:02:59Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - Large Language Models (GPT) for automating feedback on programming
assignments [0.0]
我々は,プログラミング課題を解決するためのパーソナライズされたヒントを生成するために,OpenAIのGPT-3.5モデルを採用している。
学生はGPT生成ヒントの有用性を肯定的に評価した。
論文 参考訳(メタデータ) (2023-06-30T21:57:40Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。