論文の概要: Exploring the Potential and Limitations of Large Language Models for Novice Program Fault Localization
- arxiv url: http://arxiv.org/abs/2512.03421v1
- Date: Wed, 03 Dec 2025 03:55:18 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:54.59088
- Title: Exploring the Potential and Limitations of Large Language Models for Novice Program Fault Localization
- Title(参考訳): 初心者プログラム故障特定のための大規模言語モデルの可能性と限界を探る
- Authors: Hexiang Xu, Hengyuan Liu, Yonghao Wu, Xiaolan Kang, Xiang Chen, Yong Liu,
- Abstract要約: 初心者プログラマは、限られた経験とプログラミングの構文とロジックの理解のために、フォールトローカライゼーションの課題に直面することが多い。
大きな言語モデル(LLM)は、プログラムの構文やセマンティクスを理解する能力を活用することで、これらの制限を克服することを約束している。
本研究では、Codeflaws、Condefects、BugTデータセットを用いて、6つのクローズドソースと7つのオープンソースLCMを評価する。
- 参考スコア(独自算出の注目度): 13.571471290271122
- License:
- Abstract: Novice programmers often face challenges in fault localization due to their limited experience and understanding of programming syntax and logic. Traditional methods like Spectrum-Based Fault Localization (SBFL) and Mutation-Based Fault Localization (MBFL) help identify faults but often lack the ability to understand code context, making them less effective for beginners. In recent years, Large Language Models (LLMs) have shown promise in overcoming these limitations by utilizing their ability to understand program syntax and semantics. LLM-based fault localization provides more accurate and context-aware results than traditional techniques. This study evaluates six closed-source and seven open-source LLMs using the Codeflaws, Condefects, and BugT datasets, with BugT being a newly constructed dataset specifically designed to mitigate data leakage concerns. Advanced models with reasoning capabilities, such as OpenAI o3 and DeepSeekR1, achieve superior accuracy with minimal reliance on prompt engineering. In contrast, models without reasoning capabilities, like GPT-4, require carefully designed prompts to maintain performance. While LLMs perform well in simple fault localization, their accuracy decreases as problem difficulty increases, though top models maintain robust performance in the BugT dataset. Over-reasoning is another challenge, where some models generate excessive explanations that hinder fault localization clarity. Additionally, the computational cost of deploying LLMs remains a significant barrier for real-time debugging. LLM's explanations demonstrate significant value for novice programmer assistance, with one-year experience participants consistently rating them highly. Our findings demonstrate the potential of LLMs to improve debugging efficiency while stressing the need for further refinement in their reasoning and computational efficiency for practical adoption.
- Abstract(参考訳): 初心者プログラマは、限られた経験とプログラミング構文とロジックの理解のために、フォールトローカライゼーションの課題に直面することが多い。
スペクトルベースのフォールトローカライゼーション(SBFL)やミューテーションベースのフォールトローカライゼーション(MBFL)といった従来の手法は、障害を特定するのに役立ちますが、多くの場合、コードコンテキストを理解する能力が欠如しているため、初心者にとっては効果が低いのです。
近年、LLM(Large Language Models)は、プログラムの構文やセマンティクスを理解する能力を活用して、これらの制限を克服することを約束している。
LLMベースのフォールトローカライゼーションは、従来の手法よりも正確でコンテキストに合った結果を提供する。
この研究では、Codeflaws、Condefects、BugTデータセットを使用して、6つのクローズドソースと7つのオープンソースLCMを評価し、BugTはデータ漏洩の懸念を軽減するために設計された、新たに構築されたデータセットである。
OpenAI o3やDeepSeekR1のような推論機能を備えた高度なモデルは、プロンプトエンジニアリングへの依存を最小限に抑えて、優れた精度を達成する。
対照的に、GPT-4のような推論能力のないモデルは、性能を維持するために慎重に設計されたプロンプトを必要とする。
LLMは単純なフォールトローカライゼーションでは良好に機能するが、その精度はBugTデータセットでは堅牢な性能を維持しつつも、問題の難しさが増大するにつれて低下する。
過剰推論(Over-reasoning)は別の課題であり、いくつかのモデルでは、障害の局所化を阻害する過剰な説明を生成する。
加えて、LLMをデプロイする際の計算コストは、リアルタイムデバッグにとって重要な障壁である。
LLMの説明は初心者のプログラマー支援にとって重要な価値を示し、1年の経験を持つ参加者はそれらを常に高く評価している。
本研究は,LLMのデバッグ効率向上に寄与する可能性を示すとともに,その推理や計算効率の向上の必要性を強調しつつも,デバッグ効率の向上を図っている。
関連論文リスト
- Explainable Fault Localization for Programming Assignments via LLM-Guided Annotation [11.152318521395756]
そこで本研究では,プログラムの代入に適したFact Localization法であるFLAMEを提案する。
行番号を直接予測する代わりに、私たちはLCMに詳細な説明とともに、欠陥コード行に注釈を付けるように促します。
FLAMEは、プログラムの割り当てに対して最先端のフォールトローカライゼーションベースラインを上回り、最高のパフォーマンスベースラインよりもトップ1で207のフォールトをローカライズすることに成功した。
論文 参考訳(メタデータ) (2025-09-30T02:23:07Z) - Understanding and Mitigating Errors of LLM-Generated RTL Code [7.747889860813149]
大規模言語モデル (LLM) ベースのレジスタ転送レベル (RTL) コード生成は有望であるが、全体的な成功率は相変わらず不満足である。
包括的なエラー解析と手動分類を行う。
その結果、ほとんどのエラーはRTLプログラミングの知識不足、回路概念の理解不足、複雑なマルチモーダル入力の誤解釈によるものであることが判明した。
論文 参考訳(メタデータ) (2025-08-07T11:02:32Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Large Language Model Unlearning for Source Code [65.42425213605114]
PRODは、LLMがコード生成能力を保ちながら、望ましくないコード内容を忘れることができる新しいアンラーニングアプローチである。
本評価は,既存の未学習アプローチと比較して,忘れ品質とモデルユーティリティのバランスが良好であることを示す。
論文 参考訳(メタデータ) (2025-06-20T16:27:59Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。