論文の概要: DebugTA: An LLM-Based Agent for Simplifying Debugging and Teaching in Programming Education
- arxiv url: http://arxiv.org/abs/2510.11076v1
- Date: Mon, 13 Oct 2025 07:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.239619
- Title: DebugTA: An LLM-Based Agent for Simplifying Debugging and Teaching in Programming Education
- Title(参考訳): DebugTA: プログラミング教育におけるデバッグと教育を簡単にするためのLLMベースのエージェント
- Authors: Lingyue Fu, Haowei Yuan, Datong Chen, Xinyi Dai, Qingyao Li, Weinan Zhang, Weiwen Liu, Yong Yu,
- Abstract要約: プログラミングと指導(DT)タスクでは、学生は誤ったコードを修正する支援を受ける。
DebugTA, 標準コード検索専用ツール, 参照コード調整用変数置換, リアルタイムコード解析用外部コンパイラを提案する。
DebugTAは、計算コストを大幅に削減しつつ、教育効率を継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 32.673843958049254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In programming education, Debugging and Teaching (DT) task is a common scenario where students receive assistance in correcting their erroneous code. The task involves multiple inputs, including erroneous code, error messages, reference solutions, and the question description, with the goal of generating modification suggestions to the erroneous code. However, two key challenges hinder the effectiveness of existing approaches. Firstly, the complexity and heterogeneity of inputs inherent in DT tasks significantly elevate the reasoning challenges faced by LLMs. Second, existing approaches often fail to fully leverage the availability of standard code in DT tasks, forcing models to rely solely on complex multi-step reasoning, which limits the potential of LLMs in addressing DT tasks effectively. To address these challenges, we propose DebugTA, a novel LLM-based debugging and teaching agent with specialized tools for standard code retrieval, variable substitution to align reference code, and an external compiler for real-time code analysis. Guided by explicit pedagogical and debugging principles, DebugTA acts as an agent that decomposes a complex task into sequential LLM interactions, each utilizing distinct tools for specific subtasks, thereby simplifying the logical reasoning at each step and reducing overall reasoning complexity. Furthermore, DebugTA utilizes tool calls to align the standard code with the erroneous code as much as possible, allowing the LLM to focus on logic errors within the erroneous code and improving the accuracy of the generated suggestions. To rigorously assess the quality of modification suggestions, we introduce a student simulator-teacher interaction paradigm. Experimental results on three real-world code datasets demonstrate that DebugTA consistently improves teaching effectiveness while significantly reducing computational costs.
- Abstract(参考訳): プログラミング教育において、デバッグと指導(Debugging and Teaching, DT)タスクは、学生が誤ったコードを修正する際に補助を受ける一般的なシナリオである。
このタスクは、誤コード、エラーメッセージ、参照ソリューション、質問記述を含む複数の入力を含み、誤コードに対する修正提案を生成することを目的としている。
しかし、2つの重要な課題は、既存のアプローチの有効性を妨げている。
第一に、DTタスクに固有の入力の複雑さと不均一性は、LLMが直面している推論課題を著しく高める。
第二に、既存のアプローチはDTタスクにおける標準コードの可用性を十分に活用することができず、複雑なマルチステップ推論のみに頼らざるを得ない。
これらの課題に対処するため,新しいLLMベースのデバッグ・教育エージェントであるDebugTAを提案し,標準コード検索のための特別なツール,参照コードを調整する変数置換,リアルタイムコード解析のための外部コンパイラを提案する。
DebugTAは、明示的な教育とデバッグの原則によってガイドされ、複雑なタスクをシーケンシャルなLLMインタラクションに分解するエージェントとして機能し、それぞれが特定のサブタスクに対して異なるツールを活用し、各ステップでの論理的推論を簡素化し、全体的な推論の複雑さを低減する。
さらに、DebugTAはツールコールを使用して、標準コードを可能な限り間違ったコードと整合させ、LLMが誤ったコード内のロジックエラーに集中できるようにし、生成された提案の正確性を向上させる。
修正提案の品質を厳格に評価するために,学生のシミュレーターと教師のインタラクションパラダイムを導入する。
3つの実世界のコードデータセットの実験結果から、DebugTAは、計算コストを大幅に削減しつつ、教育効率を一貫して改善することを示した。
関連論文リスト
- CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。
また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-22T14:27:17Z) - Do Code Semantics Help? A Comprehensive Study on Execution Trace-Based Information for Code Large Language Models [24.14163275602762]
コードLLMの教師付き微調整(SFT)と位相後推論におけるトレースベースセマンティック情報の有用性について検討する。
実験結果は従来の研究と驚くほど異なっており、意味情報がコードLLMのSFTおよびテスト時間スケーリングに限られた有用性を持っていることを実証している。
論文 参考訳(メタデータ) (2025-09-15T08:38:01Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Pseudocode-Injection Magic: Enabling LLMs to Tackle Graph Computational Tasks [15.69049038121735]
グラフ計算タスクは本質的に困難であり、しばしば効率的な解に対する高度なアルゴリズムを要求する。
既存のアプローチは、複雑なグラフ構造を理解するための大きな言語モデルの制限された能力によって制約される。
問題理解,迅速な設計,コード生成という3つの重要なステップから構成される新しいフレームワークであるPIEを紹介する。
論文 参考訳(メタデータ) (2025-01-23T15:04:22Z) - Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。
近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。
完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文 参考訳(メタデータ) (2024-11-21T04:23:17Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。
本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。
我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文 参考訳(メタデータ) (2024-06-11T00:40:17Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。