Fugu-MT 論文翻訳(概要): Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests

論文の概要: Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests

arxiv url: http://arxiv.org/abs/2405.00565v1
Date: Wed, 1 May 2024 15:15:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 15:27:48.890470
Title: Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests
Title（参考訳）: 障害試験におけるスペクトルに基づく断層定位のためのスタックトレースの活用
Authors: Lorena Barreto Simedo Pacheco, An Ran Chen, Jinqiu Yang, Tse-Hsun, Chen,
Abstract要約: 我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
参考スコア（独自算出の注目度）: 44.13331329339185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Bug fixing is a crucial task in software maintenance to hold user trust. Although various automated fault localization techniques exist, they often require specific conditions to be effective. For example, Spectrum-Based Fault Localization (SBFL) techniques need at least one failing test to identify bugs, which may not always be available. Bug reports, particularly those with stack traces, provide detailed information on system execution failures and are invaluable for developers. This study focuses on utilizing stack traces from crash reports as fault-triggering tests for SBFL. Our findings indicate that only 3.33% of bugs have fault-triggering tests, limiting traditional SBFL efficiency. However, 98.3% of bugfix intentions align directly with exceptions in stack traces, and 78.3% of buggy methods are reachable within an average of 0.34 method calls, proving stack traces as a reliable source for locating bugs. We introduce a new approach, SBEST, that integrates stack trace data with test coverage to enhance fault localization. Our approach shows a significant improvement, increasing Mean Average Precision (MAP) by 32.22% and Mean Reciprocal Rank (MRR) by 17.43% over traditional stack trace ranking methods.
Abstract（参考訳）: バグ修正は、ユーザの信頼を維持するために、ソフトウェアのメンテナンスにおいて重要なタスクである。様々な自動故障局所化技術が存在するが、有効にするためには特定の条件を必要とすることが多い。例えば、スペクトラムベースのフォールトローカライゼーション(SBFL)技術では、バグを特定するために少なくとも1つのフェールテストが必要です。バグレポート、特にスタックトレースを持つものは、システム実行障害に関する詳細な情報を提供しており、開発者にとっては重要ではない。本研究は,SBFLの耐故障試験として,事故報告からのスタックトレースを活用することに焦点を当てた。以上の結果から,従来のSBFLの効率を損なう原因は3.33%に過ぎなかった。しかし、98.3%のバグ修正意図はスタックトレースの例外と直接一致しており、78.3%のバグ修正手法は平均0.34のメソッドコールで到達可能であり、バグを見つけるための信頼できる情報源としてスタックトレースを証明している。我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。

関連論文リスト

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
BugPilot: Complex Bug Generation for Efficient Learning of SWE Skills [59.003563837981886]
高品質なバグは、次世代の言語モデルベースソフトウェアエンジニアリング(SWE)エージェントをトレーニングする鍵となる。難易度および多種多様なバグを合成する新しい方法を提案する。
論文参考訳（メタデータ） (2025-10-22T17:58:56Z)
AssertFlip: Reproducing Bugs via Inversion of LLM-Generated Passing Tests [0.7564784873669823]
本稿では,大規模な言語モデル(LLM)を用いたバグ再現性テスト(BRT)の自動生成手法であるAssertFlipを紹介する。 AssertFlipはまず、バグ発生時のパステストを生成し、バグ発生時にそのテストがフェールする。以上の結果から,AssertFlipは,BRTのベンチマークであるSWT-Benchのリーダボードにおいて,すべての既知技術よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-23T14:19:55Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation [7.040370156228408]
システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
論文参考訳（メタデータ） (2025-06-23T19:04:51Z)
A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions [9.141981611891715]
DISTINCT は Description-guided, branch-consistency analysis framework である。 LLM(Large Language Model)ベースのジェネレータを障害対応テストジェネレータに変換する。コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
論文参考訳（メタデータ） (2025-06-09T07:05:48Z)
Studying the Impact of Early Test Termination Due to Assertion Failure on Code Coverage and Spectrum-based Fault Localization [48.22524837906857]
本研究は,アサーション障害による早期検査終了に関する最初の実証的研究である。 6つのオープンソースプロジェクトの207バージョンを調査した。以上の結果から,早期検査終了は,コードカバレッジとスペクトルに基づく障害局所化の有効性の両方を損なうことが示唆された。
論文参考訳（メタデータ） (2025-04-06T17:14:09Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-22T16:25:41Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization [3.8040257966829802]
我々は,Defects4Jの欠陥トリガテストについて検討し,SBFL技術に関する開発者の知識がもたらす意味を強調した。バグの再現や回帰テストのために,障害トリガテストの55%が新たに追加されたことが分かりました。また、バグレポートの作成後に障害トリガテストの22%が修正され、バグに関する開発者の知識が含まれています。
論文参考訳（メタデータ） (2023-10-29T20:19:06Z)
SkipAnalyzer: A Tool for Static Code Analysis with Large Language Models [12.21559364043576]
SkipAnalyzerは、静的コード解析のための大規模言語モデル(LLM)ベースのツールである。概念実証として、SkipAnalyzerはChatGPT上に構築されている。
論文参考訳（メタデータ） (2023-10-27T23:17:42Z)
Improving Spectrum-Based Localization of Multiple Faults by Iterative Test Suite Reduction [0.30458514384586394]
本稿では,複数の断層が存在する場合の基準距離の局所化を改善する新しいSBFL拡張であるFLITSRを提案する。 3つのスペクトルタイプすべてに対して、最高のベースメトリックよりも30%-90%の、異なる断層レベルで平均的な無駄な労力が大幅に削減される。メソッドレベルの実障害に対しては、FLITSRは、最先端の学習ベースの障害ローカライザであるGRACEを著しく上回っている。
論文参考訳（メタデータ） (2023-06-16T15:00:40Z)
All Points Matter: Entropy-Regularized Distribution Alignment for Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文参考訳（メタデータ） (2023-05-25T08:19:31Z)
Large Language Models are Few-shot Testers: Exploring LLM-based General Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。 LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文参考訳（メタデータ） (2022-09-23T10:50:47Z)
Infrared: A Meta Bug Detector [10.541969253100815]
我々はメタバグ検出と呼ばれる新しいアプローチを提案し、既存の学習ベースのバグ検出よりも3つの重要な利点を提供している。我々のメタバグ検出装置(MBD)は,ヌルポインタの参照,配列インデックスのアウト・オブ・バウンド,ファイルハンドルのリーク,さらには並列プログラムにおけるデータ競合など,さまざまなバグの発見に有効であることを示す。
論文参考訳（メタデータ） (2022-09-18T09:08:51Z)
An Empirical Study on Bug Severity Estimation using Source Code Metrics and Static Analysis [0.8621608193534838]
我々は、19のJavaオープンソースプロジェクトと異なる重度ラベルを持つ3,358のバグギーメソッドを調査した。結果は、コードメトリクスがバグの多いコードを予測するのに有用であることを示しているが、バグの深刻度レベルを見積もることはできない。当社の分類では、セキュリティバグがほとんどのケースで高い重大性を持っているのに対して、エッジ/バウンダリ障害は低い重大性を持っていることが示されています。
論文参考訳（メタデータ） (2022-06-26T17:07:23Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。