Fugu-MT 論文翻訳(概要): Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving

論文の概要: Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving

arxiv url: http://arxiv.org/abs/2503.14630v1
Date: Tue, 18 Mar 2025 18:31:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-20 17:45:40.813238
Title: Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving
Title（参考訳）: プログラミング問題解決学習におけるフィードバック自動生成のための大規模言語モデルの評価
Authors: Priscylla Silva, Evandro Costa,
Abstract要約: 大規模な言語モデル(LLM)は、フィードバック生成を自動化する潜在的なツールとして登場した。本研究は,45の学生ソリューションのベンチマークデータセットを用いて,4つのLCMの性能を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Providing effective feedback is important for student learning in programming problem-solving. In this sense, Large Language Models (LLMs) have emerged as potential tools to automate feedback generation. However, their reliability and ability to identify reasoning errors in student code remain not well understood. This study evaluates the performance of four LLMs (GPT-4o, GPT-4o mini, GPT-4-Turbo, and Gemini-1.5-pro) on a benchmark dataset of 45 student solutions. We assessed the models' capacity to provide accurate and insightful feedback, particularly in identifying reasoning mistakes. Our analysis reveals that 63\% of feedback hints were accurate and complete, while 37\% contained mistakes, including incorrect line identification, flawed explanations, or hallucinated issues. These findings highlight the potential and limitations of LLMs in programming education and underscore the need for improvements to enhance reliability and minimize risks in educational applications.
Abstract（参考訳）: 効果的なフィードバックを提供することは、プログラミング問題解決における学生の学習にとって重要である。この意味では、フィードバック生成を自動化する潜在的なツールとして、Large Language Models (LLM) が登場している。しかし、学生コードにおける推論誤りを識別する信頼性と能力は、まだよく理解されていない。本研究は,45の学生ソリューションのベンチマークデータセットを用いて,4つのLCM(GPT-4o, GPT-4o mini, GPT-4-Turbo, Gemini-1.5-pro)の性能評価を行った。モデルが正確で洞察に富んだフィードバックを提供する能力、特に推論ミスを特定する能力を評価しました。分析の結果,63%のフィードバックヒントが正確で完全であることが判明した。これらの知見は、プログラミング教育におけるLCMの可能性と限界を浮き彫りにし、信頼性を高め、教育応用のリスクを最小限に抑えるための改善の必要性を浮き彫りにしている。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
DeepCritic: Deliberate Critique with Large Language Models [77.5516314477878]
我々は,Large Language Models(LLMs)の数学批判能力の研究と向上に焦点をあてる。 Qwen2.5-7B-Instructをベースとした批判モデルを開発した。
論文参考訳（メタデータ） (2025-05-01T17:03:17Z)
Generating Planning Feedback for Open-Ended Programming Exercises with LLMs [1.2499537119440245]
大きな言語モデル(LLM)は、構文エラーのあるサブミッションであっても、全体的なコード構造を検出してフィードバックを生成することができる。 GPT-4oモデルと小型変種(GPT-4o-mini)の両方が、これらの計画を驚くほど精度良く検出できることを示す。 LLMは、学生が高レベルのソリューションの一連のステップから始める他の領域の問題に対するフィードバックを提供するのに役立つかもしれない。
論文参考訳（メタデータ） (2025-04-11T20:26:49Z)
LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文参考訳（メタデータ） (2024-10-16T06:51:09Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction [35.01097297297534]
LLM(Large Language Models)の既存の評価は、検査の観点からの問題解決に重点を置いている。我々は、アノテーション付きエラータイプとステップを持つ新しいデータセットとともに、エラー識別と修正のための4つの評価タスクを定義した。その結果, GPT-4は全モデルより優れており, LLaMA-2-7BはGPT-3.5やGemini Proに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-06-02T14:16:24Z)
Open Source Language Models Can Provide Feedback: Evaluating LLMs' Ability to Help Students Using GPT-4-As-A-Judge [4.981275578987307]
大規模言語モデル(LLM)は、幅広いコンピューティングコンテキストにおけるフィードバックの自動生成に大きな可能性を示している。しかし、学生の仕事をプロプライエタリなモデルに送ることのプライバシーと倫理的意味について懸念の声が上がっている。このことは、教育におけるオープンソースのLLMの使用に大きな関心を呼んだが、そのようなオープンモデルが生み出すフィードバックの品質は、まだ検討されていない。
論文参考訳（メタデータ） (2024-05-08T17:57:39Z)
Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文参考訳（メタデータ） (2024-04-26T03:41:28Z)
Feedback-Generation for Programming Exercises With GPT-4 [0.0]
本稿では,プログラミングタスク仕様と学生が入力として提出した入力の両方を含むプロンプトに対して,GPT-4 Turboが生成する出力の品質について検討する。アウトプットは, 正当性, パーソナライゼーション, フォールトローカライゼーション, その他の特徴について質的に分析した。
論文参考訳（メタデータ） (2024-03-07T12:37:52Z)
Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文参考訳（メタデータ） (2024-03-02T20:25:50Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Pitfalls in Language Models for Code Intelligence: A Taxonomy and Survey [21.01561950216472]
現代の言語モデル(LM)はソースコードの生成と理解に成功している。その大きな可能性にもかかわらず、コードインテリジェンスのための言語モデル(LM4Code)は潜在的な落とし穴の影響を受けやすい。
論文参考訳（メタデータ） (2023-10-27T05:32:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。