Fugu-MT 論文翻訳(概要): SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests

論文の概要: SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests

arxiv url: http://arxiv.org/abs/2405.00565v2
Date: Mon, 27 Oct 2025 16:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-29 15:35:35.605902
Title: SBEST: Spectrum-Based Fault Localization Without Fault-Triggering Tests
Title（参考訳）: SBEST: フォールトトリガーテストのないスペクトルベースのフォールトローカライゼーション
Authors: Md Nakhla Rafi, Lorena Barreto Simedo Pacheco, An Ran Chen, Jinqiu Yang, Tse-Hsun, Chen,
Abstract要約: 本研究は, 事故報告から得られたスタックトレースを, スペクトルベース断層定位における故障トリガー試験のプロキシとして用いる可能性について検討した。本稿では,スタックトレース情報とテストカバレッジデータを統合する新たな手法であるSBESTを提案する。
参考スコア（独自算出の注目度）: 17.90798133817018
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fault localization is a critical step in software maintenance. Yet, many existing techniques, such as Spectrum-Based Fault Localization (SBFL), rely heavily on the availability of fault-triggering tests to be effective. In practice, especially for crash-related bugs, such tests are frequently unavailable. Meanwhile, bug reports containing stack traces often serve as the only available evidence of runtime failures and provide valuable context for debugging. This study investigates the feasibility of using stack traces from crash reports as proxies for fault-triggering tests in SBFL. Our empirical analysis of 60 crash-report bugs in Defects4J reveals that only 3.33% of these bugs have fault-triggering tests available at the time of the bug report creation. However, 98.3% of bug fixes directly address the exception observed in the stack trace, and 78.3% of buggy methods are reachable within an average of 0.34 method calls from the stack trace. These findings underscore the diagnostic value of stack traces in the absence of failing tests. Motivated by these findings, we propose SBEST, a novel approach that integrates stack trace information with test coverage data to perform fault localization when fault-triggering tests are missing. SBEST shows an improvement, with a 32.22% increase in Mean Average Precision (MAP) and a 17.43% increase in Mean Reciprocal Rank (MRR) compared to baseline approaches under the scenario where fault-triggering tests are absent.
Abstract（参考訳）: ソフトウェアのメンテナンスにおいて、フォールトローカライゼーションは重要なステップです。しかし、スペクトラムベースのフォールトローカライゼーション(SBFL)のような既存の多くのテクニックは、効果的なフォールトトリガテストの可用性に大きく依存している。実際には、特にクラッシュ関連のバグの場合、このようなテストは頻繁に利用できない。一方、スタックトレースを含むバグレポートは、実行時障害の唯一の証拠として機能し、デバッグに有用なコンテキストを提供する。本研究は,SBFLにおける故障トリガ試験のプロキシとして,クラッシュレポートからスタックトレースを使用することの可能性について検討した。 Defects4Jの60のクラッシュ報告バグに関する実証分析によると、バグレポート作成時に利用可能な障害トリガテストは3.33%に過ぎなかった。しかし、98.3%のバグ修正はスタックトレースで観察された例外に直接対処し、78.3%のバグ修正はスタックトレースから平均0.34のメソッドコールで到達可能である。これらの結果から, スタックトレースの診断的価値は, 故障試験の欠如により明らかにされた。そこで本研究では,スタックトレース情報とテストカバレッジデータを統合する新たな手法であるSBESTを提案する。 SBESTは、平均平均精度(MAP)が32.22%上昇し、平均相互ランク(MRR)が17.43%上昇した。

関連論文リスト

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
AssertFlip: Reproducing Bugs via Inversion of LLM-Generated Passing Tests [0.7564784873669823]
本稿では,大規模な言語モデル(LLM)を用いたバグ再現性テスト(BRT)の自動生成手法であるAssertFlipを紹介する。 AssertFlipはまず、バグ発生時のパステストを生成し、バグ発生時にそのテストがフェールする。以上の結果から,AssertFlipは,BRTのベンチマークであるSWT-Benchのリーダボードにおいて,すべての既知技術よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-23T14:19:55Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation [7.040370156228408]
システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
論文参考訳（メタデータ） (2025-06-23T19:04:51Z)
A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions [9.141981611891715]
DISTINCT は Description-guided, branch-consistency analysis framework である。 LLM(Large Language Model)ベースのジェネレータを障害対応テストジェネレータに変換する。コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
論文参考訳（メタデータ） (2025-06-09T07:05:48Z)
Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-22T16:25:41Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization [3.8040257966829802]
我々は,Defects4Jの欠陥トリガテストについて検討し,SBFL技術に関する開発者の知識がもたらす意味を強調した。バグの再現や回帰テストのために,障害トリガテストの55%が新たに追加されたことが分かりました。また、バグレポートの作成後に障害トリガテストの22%が修正され、バグに関する開発者の知識が含まれています。
論文参考訳（メタデータ） (2023-10-29T20:19:06Z)
SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models [12.21559364043576]
SkipAnalyzerは、静的コード解析のための大規模言語モデル(LLM)ベースのツールである。概念実証として、SkipAnalyzerはChatGPT上に構築されている。
論文参考訳（メタデータ） (2023-10-27T23:17:42Z)
Improving Spectrum-Based Localization of Multiple Faults by Iterative Test Suite Reduction [0.30458514384586394]
本稿では,複数の断層が存在する場合の基準距離の局所化を改善する新しいSBFL拡張であるFLITSRを提案する。 3つのスペクトルタイプすべてに対して、最高のベースメトリックよりも30%-90%の、異なる断層レベルで平均的な無駄な労力が大幅に削減される。メソッドレベルの実障害に対しては、FLITSRは、最先端の学習ベースの障害ローカライザであるGRACEを著しく上回っている。
論文参考訳（メタデータ） (2023-06-16T15:00:40Z)
All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文参考訳（メタデータ） (2023-05-25T08:19:31Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文参考訳（メタデータ） (2022-09-18T09:08:51Z)
An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文参考訳（メタデータ） (2022-06-26T17:07:23Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。