論文の概要: Humanizing Automated Programming Feedback: Fine-Tuning Generative Models with Student-Written Feedback
- arxiv url: http://arxiv.org/abs/2509.10647v1
- Date: Fri, 12 Sep 2025 19:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.708196
- Title: Humanizing Automated Programming Feedback: Fine-Tuning Generative Models with Student-Written Feedback
- Title(参考訳): 自動プログラミングフィードバックの人間化:学生によるフィードバックを用いた微調整生成モデル
- Authors: Victor-Alexandru Pădurean, Tung Phung, Nachiket Kotalwar, Michael Liut, Juho Leinonen, Paul Denny, Adish Singla,
- Abstract要約: 我々は、人間が書いたものに近いフィードバックを生成するための言語モデルを微調整する手段として、学習者ソーシングを探求する。
学生による複数のプログラミング問題やバグジープログラムに対するフィードバックを約1,900件収集した。
この結果から,学習データに基づく微調整モデルでは,学生のフィードバックスタイルに適合するフィードバックが生成されるだけでなく,迅速なエンジニアリングによるフィードバックよりも精度が向上することが示唆された。
- 参考スコア(独自算出の注目度): 21.114005575615586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing need for automated and personalized feedback in programming education has led to recent interest in leveraging generative AI for feedback generation. However, current approaches tend to rely on prompt engineering techniques in which predefined prompts guide the AI to generate feedback. This can result in rigid and constrained responses that fail to accommodate the diverse needs of students and do not reflect the style of human-written feedback from tutors or peers. In this study, we explore learnersourcing as a means to fine-tune language models for generating feedback that is more similar to that written by humans, particularly peer students. Specifically, we asked students to act in the flipped role of a tutor and write feedback on programs containing bugs. We collected approximately 1,900 instances of student-written feedback on multiple programming problems and buggy programs. To establish a baseline for comparison, we analyzed a sample of 300 instances based on correctness, length, and how the bugs are described. Using this data, we fine-tuned open-access generative models, specifically Llama3 and Phi3. Our findings indicate that fine-tuning models on learnersourced data not only produces feedback that better matches the style of feedback written by students, but also improves accuracy compared to feedback generated through prompt engineering alone, even though some student-written feedback is incorrect. This surprising finding highlights the potential of student-centered fine-tuning to improve automated feedback systems in programming education.
- Abstract(参考訳): プログラミング教育における自動化されたパーソナライズされたフィードバックの必要性の高まりは、フィードバック生成に生成AIを活用することへの近年の関心につながっている。
しかしながら、現在のアプローチは、事前に定義されたプロンプトがAIにフィードバックを生成するように誘導する、プロンプトエンジニアリング技術に依存する傾向がある。
これは、学生の多様なニーズに対応できず、教師や仲間からの人間によるフィードバックのスタイルを反映しない厳格で制約された反応をもたらす可能性がある。
本研究では,人間,特に同級生の文章に類似したフィードバックを生成するための言語モデルを微調整する手段として,学習者ソーシングについて検討する。
具体的には、学生にチューターの役割を逆転させ、バグを含むプログラムにフィードバックを書くよう依頼した。
学生による複数のプログラミング問題やバグジープログラムに対するフィードバックを約1,900件収集した。
比較のためのベースラインを確立するために,正当性,長さ,バグの記述方法に基づいて300のインスタンスのサンプルを分析した。
このデータを用いて、オープンアクセス生成モデル、特にLlama3とPhi3を微調整した。
実験結果から,学習データに基づく微調整モデルでは,学生が書き込んだフィードバックのスタイルに適合するフィードバックが生成されるだけでなく,学生が書き起こしたフィードバックが誤りであっても,プロンプトエンジニアリング単独で生成したフィードバックよりも精度が向上することが示唆された。
この驚くべき発見は、プログラミング教育における自動フィードバックシステムを改善するための、学生中心の微調整の可能性を強調している。
関連論文リスト
- Can Automated Feedback Turn Students into Happy Prologians? [0.9087641068861047]
学生はすべてのフィードバックタイプが役に立ち、自動テストが最も役に立ちます。
バグタイプとそれに対応する修正をラベル付けした200のアノテートプログラムとともに、7201の正確で不正なPrologサブミッションからなるデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-23T14:11:54Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models [2.1485350418225244]
大規模言語モデル(LLM)に基づく手法は,プログラムの代入に対するフィードバック生成において大きな可能性を秘めている。
本稿では、LLMを用いて「フィードバック・ラダー」、すなわち、同じ問題とサブミッションのペアに対する複数のレベルのフィードバックを生成する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
論文 参考訳(メタデータ) (2024-05-01T03:52:39Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Giving Feedback on Interactive Student Programs with Meta-Exploration [74.5597783609281]
ウェブサイトやゲームのようなインタラクティブなソフトウェアを開発することは、特にコンピュータ科学を学ぶための魅力的な方法である。
標準的アプローチでは、インストラクターは、学生が実装した対話型プログラムを手動で評価する必要がある。
Code.orgのような何百万ものオンラインプラットフォームは、インタラクティブなプログラムを実装するための代入に関するフィードバックを提供することができない。
論文 参考訳(メタデータ) (2022-11-16T10:00:23Z) - Feedback and Engagement on an Introductory Programming Module [0.0]
自動フィードバックを生成するタスクを含むオンライン学習環境を利用した1年目のプログラミングモジュールにおいて,エンゲージメントと達成度について調査を行った。
エンゲージメントと達成度に関する定量的データを収集し、コホートを6つのグループに分割しました。
その後、モジュールの終了後、学生にインタビューを行い、フィードバックが何であるか、どのくらい有用か、その使用方法、エンゲージメントにどう耐えられるか、といった、質的なデータを生成しました。
論文 参考訳(メタデータ) (2022-01-04T16:53:09Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Effects of Human vs. Automatic Feedback on Students' Understanding of AI
Concepts and Programming Style [0.0]
自動階調ツールの使用は、大規模な学部プログラミングコースにおいてほぼどこでも行われている。
コンピュータによるフィードバックと人間によるフィードバックを受け取った場合、生徒の成果を直接比較するデータは比較的不足している。
本稿では,90名の生徒を2つのフィードバックグループに分割し,2つのコホートのパフォーマンスの違いを分析することで,このギャップを解消する。
論文 参考訳(メタデータ) (2020-11-20T21:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。