論文の概要: Generating Planning Feedback for Open-Ended Programming Exercises with LLMs
- arxiv url: http://arxiv.org/abs/2504.08958v1
- Date: Fri, 11 Apr 2025 20:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:27.239012
- Title: Generating Planning Feedback for Open-Ended Programming Exercises with LLMs
- Title(参考訳): LLMを用いたオープンエンドプログラミング演習のためのプランニングフィードバックの生成
- Authors: Mehmet Arif Demirtaş, Claire Zheng, Max Fowler, Kathryn Cunningham,
- Abstract要約: 大きな言語モデル(LLM)は、構文エラーのあるサブミッションであっても、全体的なコード構造を検出してフィードバックを生成することができる。
GPT-4oモデルと小型変種(GPT-4o-mini)の両方が、これらの計画を驚くほど精度良く検出できることを示す。
LLMは、学生が高レベルのソリューションの一連のステップから始める他の領域の問題に対するフィードバックを提供するのに役立つかもしれない。
- 参考スコア(独自算出の注目度): 1.2499537119440245
- License:
- Abstract: To complete an open-ended programming exercise, students need to both plan a high-level solution and implement it using the appropriate syntax. However, these problems are often autograded on the correctness of the final submission through test cases, and students cannot get feedback on their planning process. Large language models (LLM) may be able to generate this feedback by detecting the overall code structure even for submissions with syntax errors. To this end, we propose an approach that detects which high-level goals and patterns (i.e. programming plans) exist in a student program with LLMs. We show that both the full GPT-4o model and a small variant (GPT-4o-mini) can detect these plans with remarkable accuracy, outperforming baselines inspired by conventional approaches to code analysis. We further show that the smaller, cost-effective variant (GPT-4o-mini) achieves results on par with state-of-the-art (GPT-4o) after fine-tuning, creating promising implications for smaller models for real-time grading. These smaller models can be incorporated into autograders for open-ended code-writing exercises to provide feedback for students' implicit planning skills, even when their program is syntactically incorrect. Furthermore, LLMs may be useful in providing feedback for problems in other domains where students start with a set of high-level solution steps and iteratively compute the output, such as math and physics problems.
- Abstract(参考訳): オープンエンドのプログラミング演習を完了させるためには、高レベルのソリューションを計画し、適切な構文を使ってそれを実装する必要がある。
しかし、これらの問題はテストケースを通じて最終提出の正しさに基づいて自動分解されることが多く、学生は計画プロセスについてフィードバックを得ることができない。
大きな言語モデル(LLM)は、構文エラーのあるサブミッションであっても、全体的なコード構造を検出することで、このフィードバックを生成することができるかもしれない。
そこで本研究では,LLMを用いた学生プログラムにおいて,どの高レベルな目標やパターン(プログラミング計画)が存在するかを検出する手法を提案する。
GPT-4oモデルと小型変種(GPT-4o-mini)の両方が,従来のコード解析手法にインスパイアされたベースラインよりも優れた精度で,これらの計画を検出できることが示されている。
さらに,より小型で費用対効果の高い変種 (GPT-4o-mini) が,微調整後の最先端モデル (GPT-4o) に匹敵する結果が得られることを示す。
これらの小さなモデルは、たとえプログラムが構文的に間違っているとしても、学生の暗黙の計画スキルに対するフィードバックを提供するために、オープンエンドのコード記述演習のためのオートグラファーに組み込むことができる。
さらに、LLMは、生徒が高レベルの解ステップのセットから始めて、数学や物理問題などの出力を反復的に計算する他の領域における問題に対するフィードバックを提供するのに役立つかもしれない。
関連論文リスト
- Prompt-Based Cost-Effective Evaluation and Operation of ChatGPT as a Computer Programming Teaching Assistant [0.0]
この記事では、そのようなアプリケーションに関連する3つの側面について研究する。
GPT-3.5T と GPT-4T の2つのモデルの性能評価を行った。
論文 参考訳(メタデータ) (2025-01-24T08:15:05Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。
モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。
提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文 参考訳(メタデータ) (2024-10-24T18:02:37Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - A Picture Is Worth a Thousand Words: Exploring Diagram and Video-Based
OOP Exercises to Counter LLM Over-Reliance [2.1490831374964587]
大規模言語モデル(LLM)は、テキストベースの仕様で、より複雑なオブジェクト指向プログラミング(OOP)の課題を効果的に解決することができる。
これは、学生がこれらのモデルを使って非倫理的に課題を完了させるため、学術的完全性に対する懸念を提起する。
本稿では,OOP の授業において,学生の課題解決を奨励し,学生をコピー・アンド・プロンプト・アプローチから遠ざける方法として,図表やビデオを用いてOOP タスクを定式化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T10:21:29Z) - LLMs Still Can't Avoid Instanceof: An Investigation Into GPT-3.5, GPT-4
and Bard's Capacity to Handle Object-Oriented Programming Assignments [0.0]
大規模言語モデル(LLM)は、プログラミング課題を解決しながら学生を支援するための有望なツールとして登場した。
本研究では,3つの卓越したLCMを用いて,実環境におけるOOPの課題を解決する実験を行った。
この結果から、モデルはエクササイズに対する動作可能なソリューションを多く達成する一方で、OOPのベストプラクティスを見落としていることが判明した。
論文 参考訳(メタデータ) (2024-03-10T16:40:05Z) - Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。
アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文 参考訳(メタデータ) (2024-03-07T12:37:52Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Generalized Planning in PDDL Domains with Pretrained Large Language
Models [82.24479434984426]
PDDLドメインを考慮し、GPT-4を用いてPythonプログラムを合成する。
7つのPDDLドメインでこのアプローチを評価し、4つのアブレーションと4つのベースラインと比較した。
論文 参考訳(メタデータ) (2023-05-18T14:48:20Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。