論文の概要: Explainable Fault Localization for Programming Assignments via LLM-Guided Annotation
- arxiv url: http://arxiv.org/abs/2509.25676v1
- Date: Tue, 30 Sep 2025 02:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.395552
- Title: Explainable Fault Localization for Programming Assignments via LLM-Guided Annotation
- Title(参考訳): LLM-Guided Annotationによるプログラミングアサインのための説明可能なフォールトローカライゼーション
- Authors: Fang Liu, Tianze Wang, Li Zhang, Zheyu Yang, Jing Jiang, Zian Sun,
- Abstract要約: そこで本研究では,プログラムの代入に適したFact Localization法であるFLAMEを提案する。
行番号を直接予測する代わりに、私たちはLCMに詳細な説明とともに、欠陥コード行に注釈を付けるように促します。
FLAMEは、プログラムの割り当てに対して最先端のフォールトローカライゼーションベースラインを上回り、最高のパフォーマンスベースラインよりもトップ1で207のフォールトをローカライズすることに成功した。
- 参考スコア(独自算出の注目度): 11.152318521395756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing timely and personalized guidance for students' programming assignments, offers significant practical value for helping students complete assignments and enhance their learning. In recent years, various automated Fault Localization (FL) techniques have demonstrated promising results in identifying errors in programs. However, existing FL techniques face challenges when applied to educational contexts. Most approaches operate at the method level without explanatory feedback, resulting in granularity too coarse for students who need actionable insights to identify and fix their errors. While some approaches attempt line-level fault localization, they often depend on predicting line numbers directly in numerical form, which is ill-suited to LLMs. To address these challenges, we propose FLAME, a fine-grained, explainable Fault Localization method tailored for programming assignments via LLM-guided Annotation and Model Ensemble. FLAME leverages rich contextual information specific to programming assignments to guide LLMs in identifying faulty code lines. Instead of directly predicting line numbers, we prompt the LLM to annotate faulty code lines with detailed explanations, enhancing both localization accuracy and educational value. To further improve reliability, we introduce a weighted multi-model voting strategy that aggregates results from multiple LLMs to determine the suspiciousness of each code line. Extensive experimental results demonstrate that FLAME outperforms state-of-the-art fault localization baselines on programming assignments, successfully localizing 207 more faults at top-1 over the best-performing baseline. Beyond educational contexts, FLAME also generalizes effectively to general-purpose software codebases, outperforming all baselines on the Defects4J benchmark.
- Abstract(参考訳): 学生のプログラミング課題に対するタイムリーでパーソナライズされたガイダンスを提供することで、学生が課題を完了し、学習を強化するための重要な実践的価値を提供する。
近年,プログラム内のエラーを識別する手段として,様々な自動障害局所化(FL)技術が有望な成果を上げている。
しかし、既存のFL技術は、教育的文脈に適用する際の課題に直面している。
ほとんどのアプローチは説明的フィードバックなしでメソッドレベルで動作し、結果として、エラーを特定し修正するために実行可能な洞察を必要とする学生には粒度が大きすぎる。
一部のアプローチではラインレベルの障害局所化を試みるが、LLMに不適な数値形式でライン数を直接予測することに依存することが多い。
これらの課題に対処するため,LLM-Guided Annotation と Model Ensemble によるプログラミング課題に適した,きめ細かな説明可能なフォールトローカライゼーション手法 FLAME を提案する。
FLAMEは、プログラミングの割り当てに特有のリッチなコンテキスト情報を活用して、欠陥のあるコード行を識別するLLMをガイドする。
ライン番号を直接予測する代わりに,我々はLLMに対して,局所化精度と教育的価値の両方を向上し,詳細な説明で欠陥コード行に注釈を付けるよう促した。
信頼性を高めるために,複数のLLMから得られた結果を集約して,各符号の疑似性を決定する重み付きマルチモデル投票方式を導入する。
FLAMEは、プログラムの割り当てにおいて、最先端のフォールトローカライゼーションベースラインよりも優れており、最高のパフォーマンスベースラインよりもトップ1で207のフォールトをローカライズすることに成功した。
教育コンテキスト以外にも、FLAMEは汎用ソフトウェアコードベースに効果的に一般化し、Defects4Jベンチマークのすべてのベースラインを上回ります。
関連論文リスト
- Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。
包括的なエラー解析と手動分類を行う。
その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T11:02:32Z) - Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization [0.0]
導入プログラミング課題(IPAs)のための自動プログラム修復(APR)は、多数の学生の参加によって動機付けられている。
本稿では,FMに基づく障害局所化とLarge Language Models(LLMs)の長所を組み合わせた新しいアプローチを提案する。
提案手法では,MaxSATに基づく障害位置定位法を用いて,プログラムのバグ部分を特定し,これらのバグ文を欠いたプログラムスケッチをLLMに提示する。
論文 参考訳(メタデータ) (2024-12-19T12:08:44Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Insights from Benchmarking Frontier Language Models on Web App Code Generation [1.7268889851975326]
本稿では,WebApp1Kベンチマークによる16のフロンティア大言語モデル(LLM)の評価から得られた知見について述べる。
結果は、全てのモデルが類似した知識を持っているが、それらの性能は、それらが犯した誤りの頻度によって区別されることを示している。
論文 参考訳(メタデータ) (2024-09-08T18:24:26Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。