論文の概要: Large Language Models for Fault Localization: An Empirical Study
- arxiv url: http://arxiv.org/abs/2510.20521v1
- Date: Thu, 23 Oct 2025 13:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.930385
- Title: Large Language Models for Fault Localization: An Empirical Study
- Title(参考訳): フォールトローカライゼーションのための大規模言語モデル:実証的研究
- Authors: YingJian Xiao, RongQun Hu, WeiWei Gong, HongWei Li, AnQuan Jie,
- Abstract要約: 本稿では,大規模言語モデル (LLM) に関する体系的な実証的研究を,文レベルコード故障の局所化タスクにおいて提案する。
我々は,オープンソースモデル (Qwen2.5-coder-32b-instruct, DeepSeek-V3) とクローズドソースモデル (GPT-4.1 mini, Gemini-2.5-flash) を評価し,その故障局所化機能を評価する。
- 参考スコア(独自算出の注目度): 3.2111987440830974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in code-related tasks, particularly in automated program repair. However, the effectiveness of such repairs is highly dependent on the performance of upstream fault localization, for which comprehensive evaluations are currently lacking. This paper presents a systematic empirical study on LLMs in the statement-level code fault localization task. We evaluate representative open-source models (Qwen2.5-coder-32b-instruct, DeepSeek-V3) and closed-source models (GPT-4.1 mini, Gemini-2.5-flash) to assess their fault localization capabilities on the HumanEval-Java and Defects4J datasets. The study investigates the impact of different prompting strategies--including standard prompts, few-shot examples, and chain-of-reasoning--on model performance, with a focus on analysis across accuracy, time efficiency, and economic cost dimensions. Our experimental results show that incorporating bug report context significantly enhances model performance. Few-shot learning shows potential for improvement but exhibits noticeable diminishing marginal returns, while chain-of-thought reasoning's effectiveness is highly contingent on the model's inherent reasoning capabilities. This study not only highlights the performance characteristics and trade-offs of different models in fault localization tasks, but also offers valuable insights into the strengths of current LLMs and strategies for improving fault localization effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にプログラムの自動修復において、コード関連のタスクにおいて顕著な機能を示した。
しかし,これらの修復の有効性は,現在網羅的評価が不十分な上流断層の局所化の性能に大きく依存している。
本稿では,ステートメントレベル符号故障の局所化タスクにおけるLCMの系統的研究について述べる。
代表的なオープンソースモデル(Qwen2.5-coder-32b-instruct, DeepSeek-V3)とクローズドソースモデル(GPT-4.1 mini, Gemini-2.5-flash)を評価し,HumanEval-JavaおよびDefects4Jデータセットのフォールトローカライゼーション機能を評価する。
本研究は, 精度, 時間効率, 経済コストの面から分析することに着目し, 標準的プロンプト, 少数ショット例, 連鎖型モデル性能など, 異なるプロンプト戦略の影響について検討した。
実験結果から,バグレポートのコンテキストを組み込むことで,モデルの性能が著しく向上することが示された。
ほとんどショット学習は改善の可能性を示さないが、明らかな限界リターンの減少を示す一方、チェーン・オブ・シークレット・推論の有効性はモデル固有の推論能力に強く依存している。
本研究は, 故障局地化タスクにおける異なるモデルの性能特性とトレードオフだけでなく, 現状のLLMの強みや, 故障局地化の有効性向上戦略に関する貴重な知見を提供する。
関連論文リスト
- Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。