論文の概要: Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation
- arxiv url: http://arxiv.org/abs/2506.19045v1
- Date: Mon, 23 Jun 2025 19:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.349823
- Title: Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation
- Title(参考訳): 大規模言語モデルによるブラックボックステストコードの故障位置決めと実行推定
- Authors: Ahmadreza Saboor Yaraghi, Golnaz Gharachorlu, Sakina Fatima, Lionel C. Briand, Ruiyuan Wan, Ruifeng Gao,
- Abstract要約: システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。
私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。
事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
- 参考スコア(独自算出の注目度): 7.040370156228408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fault localization (FL) is a critical step in debugging which typically relies on repeated executions to pinpoint faulty code regions. However, repeated executions can be impractical in the presence of non-deterministic failures or high execution costs. While recent efforts have leveraged Large Language Models (LLMs) to aid execution-free FL, these have primarily focused on identifying faults in the system under test (SUT) rather than in the often complex system test code. However, the latter is also important as, in practice, many failures are triggered by faulty test code. To overcome these challenges, we introduce a fully static, LLM-driven approach for system test code fault localization (TCFL) that does not require executing the test case. Our method uses a single failure execution log to estimate the test's execution trace through three novel algorithms that identify only code statements likely involved in the failure. This pruned trace, combined with the error message, is used to prompt the LLM to rank potential faulty locations. Our black-box, system-level approach requires no access to the SUT source code and is applicable to large test scripts that assess full system behavior. We evaluate our technique at function, block, and line levels using an industrial dataset of faulty test cases not previously used in pre-training LLMs. Results show that our best estimated trace closely match actual traces, with an F1 score of around 90%. Additionally, pruning the complex system test code reduces the LLM's inference time by up to 34% without any loss in FL performance. Our results further suggest that block-level TCFL offers a practical balance, narrowing the search space while preserving useful context, achieving an 81% hit rate at top-3 (Hit@3).
- Abstract(参考訳): フォールトローカライゼーション(FL)はデバッグにおいて重要なステップである。
しかし、反復実行は非決定的な失敗や高い実行コストの存在下では実用的ではない。
近年の取り組みでは、LLM(Large Language Models)を活用して実行不要なFLを支援しているが、これらは主に複雑なシステムテストコードではなく、テスト中のシステム(SUT)内の障害を特定することに焦点を当てている。
しかし、実際、多くの失敗は欠陥のあるテストコードによって引き起こされるため、後者も重要である。
これらの課題を克服するために、テストケースの実行を必要としないシステムテストコード障害ローカライゼーション(TCFL)に対して、完全に静的なLLM駆動のアプローチを導入する。
本手法では,1つのエラー実行ログを用いて,テストの実行トレースを3つの新しいアルゴリズムで推定する。
このプルーンドトレースとエラーメッセージが組み合わさって、LLMに潜在的な故障箇所をランク付けするよう促す。
我々のブラックボックス、システムレベルのアプローチは、SUTソースコードへのアクセスを必要とせず、システム全体の振る舞いを評価する大規模なテストスクリプトに適用できます。
プレトレーニングLLMではこれまで使用されていなかった故障テストケースの工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
その結果、F1のスコアは約90%で、最も推定されたトレースは実際のトレースと密接に一致していることがわかった。
さらに、複雑なシステムテストコードのプルーニングは、FL性能を損なうことなく、LLMの推論時間を最大34%削減する。
さらに,ブロックレベルのTCFLは,有用なコンテキストを維持しながら検索空間を狭め,トップ3(Hit@3)で81%のヒット率を達成した。
関連論文リスト
- Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。
我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文 参考訳(メタデータ) (2025-02-17T18:43:24Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - TESTEVAL: Benchmarking Large Language Models for Test Case Generation [15.343859279282848]
大規模言語モデル(LLM)を用いたテストケース生成のための新しいベンチマークであるTESTEVALを提案する。
オンラインプログラミングプラットフォームLeetCodeから210のPythonプログラムを収集し、全体的なカバレッジ、ターゲットライン/ブランチカバレッジ、ターゲットパスカバレッジという3つの異なるタスクを設計します。
特定のプログラム行/ブランチ/パスをカバーするテストケースを生成することは、現在のLLMでは依然として困難である。
論文 参考訳(メタデータ) (2024-06-06T22:07:50Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。
JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。