Fugu-MT 論文翻訳(概要): Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation

論文の概要: Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation

arxiv url: http://arxiv.org/abs/2310.03780v3
Date: Thu, 21 Dec 2023 13:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 18:24:12.312629
Title: Automating Human Tutor-Style Programming Feedback: Leveraging GPT-4 Tutor Model for Hint Generation and GPT-3.5 Student Model for Hint Validation
Title（参考訳）: ヒューマンチュータスタイルプログラミングフィードバックの自動化:Hint生成のためのGPT-4チュータモデルとHint検証のためのGPT-3.5学生モデルを活用する
Authors: Tung Phung, Victor-Alexandru P\u{a}durean, Anjali Singh, Christopher Brooks, Jos\'e Cambronero, Sumit Gulwani, Adish Singla, Gustavo Soares
Abstract要約: 本稿では,人間の教師型プログラミングヒントの提供における生成型AIモデルの役割について検討する。最近の研究は、様々なフィードバック生成シナリオのための最先端モデルのベンチマークを行っている。我々はGPT4Hints-GPT3.5Valという新しい手法を開発し、生成AIモデルの限界を推し進める。
参考スコア（独自算出の注目度）: 29.225823214788477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative AI and large language models hold great promise in enhancing programming education by automatically generating individualized feedback for students. We investigate the role of generative AI models in providing human tutor-style programming hints to help students resolve errors in their buggy programs. Recent works have benchmarked state-of-the-art models for various feedback generation scenarios; however, their overall quality is still inferior to human tutors and not yet ready for real-world deployment. In this paper, we seek to push the limits of generative AI models toward providing high-quality programming hints and develop a novel technique, GPT4Hints-GPT3.5Val. As a first step, our technique leverages GPT-4 as a ``tutor'' model to generate hints -- it boosts the generative quality by using symbolic information of failing test cases and fixes in prompts. As a next step, our technique leverages GPT-3.5, a weaker model, as a ``student'' model to further validate the hint quality -- it performs an automatic quality validation by simulating the potential utility of providing this feedback. We show the efficacy of our technique via extensive evaluation using three real-world datasets of Python programs covering a variety of concepts ranging from basic algorithms to regular expressions and data analysis using pandas library.
Abstract（参考訳）: 生成型AIと大規模言語モデルは、学生に対する個別のフィードバックを自動的に生成することにより、プログラミング教育の強化に大いに貢献する。学習者型プログラミングヒントの提供における生成型aiモデルの役割について検討し,学生のバギープログラムにおけるエラー解決を支援する。最近の研究は、様々なフィードバック生成シナリオの最先端モデルをベンチマークしているが、その全体的な品質は、人間のチューターに劣り、実際の展開の準備が整っていない。本稿では,生成型AIモデルの限界を高品質なプログラミングヒントの提供に推し進め,新しい技術であるGPT4Hints-GPT3.5Valを開発する。最初のステップとして、GPT-4 を ``tutor'' モデルとして利用してヒントを生成する -- 失敗するテストケースのシンボル情報とプロンプト修正を使用することで、生成品質を向上させる。次のステップとして、より弱いモデルである GPT-3.5 を ``student'' モデルとして活用して、ヒントの品質をさらに検証します。基礎アルゴリズムから正規表現, pandasライブラリを用いたデータ解析まで,様々な概念をカバーするpythonプログラムの3つの実世界データセットを用いて,本手法の有効性を示す。

関連論文リスト

3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models [94.48803082248872]
3D世代は急速に進歩しているが、3D評価の開発はペースを保っていない。 3DGen-Arenaは、公開ユーザと専門家アノテータの両方から人間の好みを収集する統合プラットフォームである。このデータセットを用いて、CLIPベースのスコアモデルである3DGen-ScoreとMLLMベースの自動評価器である3DGen-Evalをさらに訓練する。
論文参考訳（メタデータ） (2025-03-27T17:53:00Z)
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
我々は、完全にオープンな最先端の訓練後モデルであるT"ULU 3を紹介する。 T"ULU 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文参考訳（メタデータ） (2024-11-22T18:44:04Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Good things come in three: Generating SO Post Titles with Pre-Trained Models, Self Improvement and Post Ranking [5.874782446136913]
Stack Overflowは著名なQとAフォーラムであり、開発者がプログラミング関連の問題に適切なリソースを求めるのをサポートする。高品質な質問タイトルを持つことは、開発者の注意を引き付ける効果的な手段である。主にトレーニング済みのモデルを活用して、コードスニペットや問題記述からタイトルを生成する研究が行われている。自己改善とポストランキングを備えた微調整言語モデルを用いて,Stack Overflowのポストタイトルを生成するソリューションとしてFILLERを提案する。
論文参考訳（メタデータ） (2024-06-21T20:18:34Z)
Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation [22.467879240959686]
品質、コスト、時間、データのプライバシなど、いくつかのパフォーマンス基準で、プログラミングフィードバック生成のための言語モデルをベンチマークします。我々は,GPT-4生成合成データに基づく微調整パイプラインを開発した。 WebLLMのブラウザ内推論エンジンを用いた微調整Llama3-8BとPhi3-3.8B 4ビット量子化モデルの有効性を示す。
論文参考訳（メタデータ） (2024-06-07T16:22:51Z)
From GPT-3 to GPT-4: On the Evolving Efficacy of LLMs to Answer Multiple-choice Questions for Programming Classes in Higher Education [2.6626950367610402]
マルチチョイス質問(MCQ)に対する回答生成における3つの生成事前学習型トランスフォーマー(GPT)モデルの進化的有効性について検討する。私たちは、ChatGPT(Nov '22)のリリース前、リリース時、そして今日(つまり8月23日)のモデルの能力の違いに注目します。
論文参考訳（メタデータ） (2023-11-16T02:46:15Z)
Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文参考訳（メタデータ） (2023-11-02T12:01:29Z)
Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors [21.227955181065948]
我々は,ChatGPT(GPT-3.5に基づく)とGPT-4の2つのモデルを体系的に評価し,その性能を様々なシナリオにおいて人間の家庭教師と比較した。以上の結果から, GPT-4はChatGPT(GPT-3.5をベースとした)を大幅に上回り, 複数のシナリオにおいて人間の指導者に近い性能を示した。
論文参考訳（メタデータ） (2023-06-29T17:57:40Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。 2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。 21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文参考訳（メタデータ） (2023-03-18T14:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。