論文の概要: Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4
Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation
- arxiv url: http://arxiv.org/abs/2310.03780v3
- Date: Thu, 21 Dec 2023 13:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:24:12.312629
- Title: Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4
Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation
- Title(参考訳): ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する
- Authors: Tung Phung, Victor-Alexandru P\u{a}durean, Anjali Singh, Christopher
Brooks, Jos\'e Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares
- Abstract要約: 本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。
最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。
我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
- 参考スコア(独自算出の注目度): 29.225823214788477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI and large language models hold great promise in enhancing
programming education by automatically generating individualized feedback for
students. We investigate the role of generative AI models in providing human
tutor-style programming hints to help students resolve errors in their buggy
programs. Recent works have benchmarked state-of-the-art models for various
feedback generation scenarios; however, their overall quality is still inferior
to human tutors and not yet ready for real-world deployment. In this paper, we
seek to push the limits of generative AI models toward providing high-quality
programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a
first step, our technique leverages GPT-4 as a ``tutor'' model to generate
hints -- it boosts the generative quality by using symbolic information of
failing test cases and fixes in prompts. As a next step, our technique
leverages GPT-3.5, a weaker model, as a ``student'' model to further validate
the hint quality -- it performs an automatic quality validation by simulating
the potential utility of providing this feedback. We show the efficacy of our
technique via extensive evaluation using three real-world datasets of Python
programs covering a variety of concepts ranging from basic algorithms to
regular expressions and data analysis using pandas library.
- Abstract(参考訳): 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。
学習者型プログラミングヒントの提供における生成型aiモデルの役割について検討し,学生のバギープログラムにおけるエラー解決を支援する。
最近の研究は、様々なフィードバック生成シナリオの最先端モデルをベンチマークしているが、その全体的な品質は、人間のチューターに劣り、実際の展開の準備が整っていない。
本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発する。
最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。
次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。
基礎アルゴリズムから正規表現, pandasライブラリを用いたデータ解析まで,様々な概念をカバーするpythonプログラムの3つの実世界データセットを用いて,本手法の有効性を示す。
関連論文リスト
- Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer
Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。
私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文 参考訳(メタデータ) (2023-11-16T02:46:15Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - AI-enhanced Auto-correction of Programming Exercises: How Effective is
GPT-3.5? [0.0]
本稿では、パーソナライズされたコード修正とフィードバック生成におけるAIの可能性について検討する。
GPT-3.5は、実際のエラーではないエラーのローカライズや、幻覚的エラーなど、評価の弱点を示した。
論文 参考訳(メタデータ) (2023-10-24T10:35:36Z) - Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4,
and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。
以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文 参考訳(メタデータ) (2023-06-29T17:57:40Z) - Thrilled by Your Progress! Large Language Models (GPT-4) No Longer
Struggle to Pass Assessments in Higher Education Programming Courses [0.0]
GPTモデルは、典型的なプログラミングクラスの評価が完全に失敗することから、人間の関与なしにコースを確実に通過することへと進化した。
本研究は,学習者が合格点の収集に利用できる使い勝手の良い技術が存在する世界に備える必要があることを示すものである。
論文 参考訳(メタデータ) (2023-06-15T22:12:34Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - A Preliminary Analysis on the Code Generation Capabilities of GPT-3.5
and Bard AI Models for Java Functions [5.0232749277810615]
GPT-3.5は優れた性能を示し、関数記述の約90.6%の正しいコードを生成する。
Bardは53.1%の関数に対して正しいコードを生成する。
論文 参考訳(メタデータ) (2023-05-16T12:44:39Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z) - TuringAdvice: A Generative and Dynamic Evaluation of Language Use [90.3029315711237]
言語理解モデルのための新しい課題タスクとデータセットであるTuringAdviceを提案する。
現実の人が現在直面している記述された状況を考えると、モデルは自然言語で有益なアドバイスを生成する必要がある。
実証的な結果は、今日のモデルがTuringAdviceで苦労していることを示している。
論文 参考訳(メタデータ) (2020-04-07T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。