論文の概要: Finding the Needle in the Crash Stack: Industrial-Scale Crash Root Cause Localization with AutoCrashFL
- arxiv url: http://arxiv.org/abs/2510.22530v1
- Date: Sun, 26 Oct 2025 04:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.235301
- Title: Finding the Needle in the Crash Stack: Industrial-Scale Crash Root Cause Localization with AutoCrashFL
- Title(参考訳): クラッシュスタックの針を見つける:AutoCrashFLによる産業規模のクラッシュルートの局所化
- Authors: Sungmin Kang, Sumi Yun, Jingun Hong, Shin Yoo, Gabin An,
- Abstract要約: 本稿では,プログラムアンダーテスト(PUT)からのクラッシュダンプと対応するソースコードのリポジトリへのアクセスのみを必要とするクラッシュのローカライズのためのエージェントであるAutoCrashFLを提案する。
我々は,3500万行以上のコードからなる産業用ソフトウェアプロジェクトであるSAPの実際のクラッシュに対してAutoCrashFLを評価した。
- 参考スコア(独自算出の注目度): 7.35168055783183
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fault Localization (FL) aims to identify root causes of program failures. FL typically targets failures observed from test executions, and as such, often involves dynamic analyses to improve accuracy, such as coverage profiling or mutation testing. However, for large industrial software, measuring coverage for every execution is prohibitively expensive, making the use of such techniques difficult. To address these issues and apply FL in an industrial setting, this paper proposes AutoCrashFL, an LLM agent for the localization of crashes that only requires the crashdump from the Program Under Test (PUT) and access to the repository of the corresponding source code. We evaluate AutoCrashFL against real-world crashes of SAP HANA, an industrial software project consisting of more than 35 million lines of code. Experiments reveal that AutoCrashFL is more effective in localization, as it identified 30% crashes at the top, compared to 17% achieved by the baseline. Through thorough analysis, we find that AutoCrashFL has attractive practical properties: it is relatively more effective for complex bugs, and it can indicate confidence in its results. Overall, these results show the practicality of LLM agent deployment on an industrial scale.
- Abstract(参考訳): フォールトローカライゼーション(FL)は、プログラム障害の根本原因を特定することを目的としている。
FLは通常、テスト実行から観察される失敗をターゲットとしており、しばしば、カバレッジプロファイリングや突然変異テストのような正確性を改善するために動的解析を伴います。
しかし、大規模な産業用ソフトウェアでは、全ての実行のカバレッジを計測することは違法に高価であり、そのような技術の使用は困難である。
本稿では,これらの問題に対処し,産業環境でFLを適用するために,プログラムアンダーテスト(PUT)からのクラッシュダンプと対応するソースコードのリポジトリへのアクセスのみを必要とするクラッシュのローカライズのためのLLMエージェントであるAutoCrashFLを提案する。
我々は,3500万行以上のコードからなる産業用ソフトウェアプロジェクトであるSAP HANAの実際のクラッシュに対してAutoCrashFLを評価した。
実験の結果、AutoCrashFLは、ベースラインで達成された17%に比べて、上部で30%のクラッシュが検出されたため、ローカライズに有効であることが判明した。
徹底的な分析により,AutoCrashFLは複雑なバグに対して比較的効果的であり,その結果に対する信頼性を示すことができるという,魅力的な実用性を持っていることがわかった。
これらの結果は,LLMエージェントの産業規模での展開の実用性を示している。
関連論文リスト
- Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。
kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。
kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文 参考訳(メタデータ) (2026-02-02T19:06:15Z) - LLM-GUARD: Large Language Model-Based Detection and Repair of Bugs and Security Vulnerabilities in C++ and Python [0.0]
ChatGPT-4、Claude 3、LLaMA 4のような大規模言語モデル(LLM)は、ソフトウェア/アプリケーション開発にますます組み込まれている。
本研究では,プログラムエラー,古典的セキュリティ欠陥,およびC++とPythonの高度なプロダクショングレードバグのベンチマークを用いて,これら3つの主要なLCMの体系的,実証的な評価を行う。
論文 参考訳(メタデータ) (2025-08-22T14:30:24Z) - Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [79.74676890436174]
本稿では,障害の局所化と修復のためのオラクルとして形式仕様を用いたDafny用のAPRツールを提案する。
プログラム内の各ステートメントの状態を決定するために、Hoareロジックの使用を含む一連のステップを通じて、障害をローカライズします。
また, GPT-4o miniが74.18%と高い修理成功率を示した。
論文 参考訳(メタデータ) (2025-07-04T15:36:12Z) - Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation [7.040370156228408]
システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。
私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。
事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
論文 参考訳(メタデータ) (2025-06-23T19:04:51Z) - Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces [3.3158239079459655]
本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。
64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
論文 参考訳(メタデータ) (2025-01-29T21:40:32Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Exploring Large Language Models in Resolving Environment-Related Crash Bugs: Localizing and Repairing [36.4673637256627]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
実環境におけるクラッシュバグの解決におけるLLMの能力を評価するための,初の総合的研究を行った。
この結果から,コードクラッシュを解決する上ではローカライゼーションが最大の課題であることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-16T13:41:04Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。
JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。