論文の概要: Similar Pattern Annotation via Retrieval Knowledge for LLM-Based Test Code Fault Localization
- arxiv url: http://arxiv.org/abs/2605.07957v1
- Date: Fri, 08 May 2026 16:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.196467
- Title: Similar Pattern Annotation via Retrieval Knowledge for LLM-Based Test Code Fault Localization
- Title(参考訳): LLMに基づくテストコード故障位置推定のための検索知識による類似パターンアノテーション
- Authors: Golnaz Gharachorlu, Mahsa Panahandeh, Lionel C. Briand, Ruifeng Gao, Ruiyuan Wan,
- Abstract要約: ソフトウェアの失敗は、欠陥のあるシステムテストスクリプトから生じます。
テストコードフォールトローカライゼーション(TCFL)は、継続的インテグレーション環境において重要であるにも関わらず、はるかに注目されていない。
本稿では,CI環境から蓄積したデバッグ知識をLarge Language Model (LLM)ベースのTCFLに統合するフレームワークであるSPARKを提案する。
- 参考スコア(独自算出の注目度): 5.9162004338597365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software failures remain a major challenge in modern software development, and identifying the code elements responsible for failures is a time-consuming debugging task. While extensive research has focused on fault localization in the system under test (SUT), failures can also originate from faulty system test scripts. This problem, known as Test Code Fault Localization (TCFL), has received significantly less attention despite its importance in continuous integration (CI) environments where large test suites are executed frequently. TCFL is particularly challenging because it typically operates under black-box conditions, relies on limited diagnostic signals such as error messages and partial logs, and involves large system-level test scripts that expand the fault localization search space. In this paper, we propose SPARK, a framework that integrates accumulated debugging knowledge from continuous integration (CI) environments into Large Language Model (LLM)-based TCFL. Given a newly observed failing test case, SPARK retrieves similar fault-labeled test cases from a debugging knowledge corpus and selectively annotates suspicious lines of the failing test based on their similarity to previously observed fault patterns. These annotations guide the LLM's reasoning while maintaining scalability and avoiding the prompt-length explosion common to naive retrieval-augmented approaches. We evaluate SPARK on three industrial datasets containing real-world faulty Python test cases from different software products. The results show that SPARK consistently improves fault localization effectiveness compared to the existing LLM-based TCFL baseline while maintaining comparable inference cost and token usage. In particular, the approach advances the state of the art by identifying more correct faulty locations in complex test cases containing multiple faults.
- Abstract(参考訳): ソフトウェア障害は、現代のソフトウェア開発において依然として大きな課題であり、失敗の原因となるコード要素を特定することは、時間を要するデバッグ作業である。
大規模な研究は、テスト中のシステム(SUT)の障害ローカライゼーションに重点を置いているが、障害はシステムテストスクリプトの欠陥からも生じる可能性がある。
テストコードフォールトローカライゼーション(TCFL)として知られるこの問題は、大規模なテストスイートが頻繁に実行される継続的インテグレーション(CI)環境において重要であるにも関わらず、はるかに少ない注目を集めている。
TCFLは一般にブラックボックス条件下で動作し、エラーメッセージや部分ログのような限られた診断信号に依存し、フォールトローカライゼーション検索空間を拡張するシステムレベルの大規模なテストスクリプトを必要とするため、特に困難である。
本稿では,Large Language Model (LLM) ベースのTCFLに継続的インテグレーション(CI)環境から蓄積したデバッグ知識を統合するフレームワークであるSPARKを提案する。
新たに観測されたフェールテストケースが与えられた場合、SPARKは、デバッグ知識コーパスから類似したフォールトラベルテストケースを検索し、以前に観察されたフォールトパターンと類似性に基づいて、フェールテストの疑わしい行を選択的に注釈する。
これらのアノテーションは、スケーラビリティを維持しながらLCMの推論をガイドし、単純な検索強化アプローチに共通する即時的な爆発を避ける。
我々は,異なるソフトウェア製品から現実の欠陥Pythonテストケースを含む3つの産業データセット上でSPARKを評価した。
その結果, SPARK は既存の LLM ベースの TCFL ベースラインと比較して, フォールトローカライゼーションの有効性を常に向上し, 同等の推論コストとトークン使用率を維持した。
特に、このアプローチは、複数の障害を含む複雑なテストケースにおいて、より正確な障害箇所を特定することによって、最先端の手法を推し進めている。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文 参考訳(メタデータ) (2026-02-13T14:33:13Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - When the Code Autopilot Breaks: Why LLMs Falter in Embedded Machine Learning [0.8880611506199766]
我々は、形式、モデル行動、構造的仮定が成功率と失敗特性の両方にどのように影響するかを示す。
私たちの分析では、フォーマットによる誤解釈や、コンパイルされるが下流で壊れる実行時ディスラプティブコードなど、さまざまなエラーが発生しやすい挙動を明らかにしています。
論文 参考訳(メタデータ) (2025-09-13T19:00:04Z) - Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation [7.040370156228408]
システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。
私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。
事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
論文 参考訳(メタデータ) (2025-06-23T19:04:51Z) - CFaults: Model-Based Diagnosis for Fault Localization in C Programs with Multiple Test Cases [2.8853600644505266]
本稿では,複数の障害を持つCプログラムに対して,新しい障害局所化手法を提案する。
CFaultsは、複数の観察でモデルベース診断(MBD)を活用し、失敗したすべてのテストケースを統一されたMaxSAT公式に集約する。
C プログラムのベンチマークセット TCAS と C-Pack-IPAs の実験結果から,CFaults は他の FBFL の手法よりも高速であることがわかった。
論文 参考訳(メタデータ) (2024-07-12T15:14:49Z) - Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation [11.517293765116307]
ユニットテストはソフトウェアの信頼性に不可欠だが、手動のテスト作成には時間がかかり、しばしば無視される。
本研究は,LLM生成単体テストの大規模評価をクラスレベルで行った最初の大規模評価である。
論文 参考訳(メタデータ) (2024-06-28T20:38:41Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。