論文の概要: Crash Report Enhancement with Large Language Models: An Empirical Study
- arxiv url: http://arxiv.org/abs/2509.13535v1
- Date: Tue, 16 Sep 2025 21:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.650569
- Title: Crash Report Enhancement with Large Language Models: An Empirical Study
- Title(参考訳): 大規模言語モデルによるクラッシュレポートの強化に関する実証的研究
- Authors: S M Farah Al Fahim, Md Nakhla Rafi, Zeyang Ma, Dong Jae Kim, Tse-Hsun, Chen,
- Abstract要約: 大規模言語モデルでは, 故障箇所, 根本原因の説明, 修復提案を追加することで, 事故報告を向上できるかどうかを検討する。
実世界の492件の事故報告のデータセットでは、LSMが実施した報告はTop-1問題局所化の精度を10.6%から40.2-43.1%に改善した。
手動による評価と LLM-as-a-judge の評価は,Agenic-LLM がより強力な根本原因の説明と,より実用的な修復指導を提供することを示している。
- 参考スコア(独自算出の注目度): 21.842377922082104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crash reports are central to software maintenance, yet many lack the diagnostic detail developers need to debug efficiently. We examine whether large language models can enhance crash reports by adding fault locations, root-cause explanations, and repair suggestions. We study two enhancement strategies: Direct-LLM, a single-shot approach that uses stack-trace context, and Agentic-LLM, an iterative approach that explores the repository for additional evidence. On a dataset of 492 real-world crash reports, LLM-enhanced reports improve Top-1 problem-localization accuracy from 10.6% (original reports) to 40.2-43.1%, and produce suggested fixes that closely resemble developer patches (CodeBLEU around 56-57%). Both our manual evaluations and LLM-as-a-judge assessment show that Agentic-LLM delivers stronger root-cause explanations and more actionable repair guidance. A user study with 16 participants further confirms that enhanced reports make crashes easier to understand and resolve, with the largest improvement in repair guidance. These results indicate that supplying LLMs with stack traces and repository code yields enhanced crash reports that are substantially more useful for debugging.
- Abstract(参考訳): クラッシュレポートはソフトウェアのメンテナンスの中心であるが、開発者が効率的にデバッグする必要がある診断の詳細が欠如している。
大規模言語モデルでは, 故障箇所, 根本原因の説明, 修復提案を追加することで, 事故報告を向上できるかどうかを検討する。
スタックトレースコンテキストを用いたシングルショットアプローチであるDirect-LLMと,追加の証拠を求めてリポジトリを探索するAgentic-LLMの2つの拡張戦略について検討する。
492件の現実のクラッシュレポートのデータセットでは、LSMが実施した報告はトップ1問題局所化の精度を10.6%から40.2-43.1%に改善し、開発者パッチ(CodeBLEU約56-57%)によく似た修正が提案されている。
手動による評価と LLM-as-a-judge の評価は,Agenic-LLM がより強力な根本原因の説明と,より実用的な修復指導を提供することを示している。
16人の参加者によるユーザスタディでは、レポートの強化によってクラッシュの理解と解決が容易になり、最大の改善点が確認されている。
これらの結果から,LLMにスタックトレースとレポジトリコードを提供することで,デバッグに極めて有用であるクラッシュレポートが強化されることが示唆された。
関連論文リスト
- RepoDebug: Repository-Level Multi-Task and Multi-Language Debugging Evaluation of Large Language Models [49.83481415540291]
LLM(Large Language Models)は、コードのデバッグに非常に熟練している。
本稿ではマルチタスクおよび多言語リポジトリレベルのコードデバッグデータセットであるRepo Debugを紹介する。
最高のパフォーマンスモデルである Claude 3.5 Sonnect は,リポジトリレベルのデバッグでは依然としてうまく動作しない。
論文 参考訳(メタデータ) (2025-09-04T10:13:21Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - An Empirical Study on the Capability of LLMs in Decomposing Bug Reports [9.544728752295269]
本研究では,大規模言語モデル(LLM)が,複雑なバグレポートを自動的に,より小さく自己完結したユニットに分解するのに役立つかどうかを検討する。
我々はApache Jiraから収集した127件のプライバシー関連バグレポートについて実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-29T16:29:12Z) - Code Change Intention, Development Artifact and History Vulnerability: Putting Them Together for Vulnerability Fix Detection by LLM [13.278153690972243]
VulFixMinerとCoLeFunDaは、開発アーティファクトから必須のコンテキストを無視して、コードの変更のみに焦点を当てている。
LLM4VFD(Large Language Models (LLMs)) とChain-of-Thought推論とIn-Context Learningを併用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T23:40:03Z) - Enhancing IR-based Fault Localization using Large Language Models [5.032687557488094]
本稿では、プログラミングエンティティ、スタックトレース、自然言語テキストに基づいてバグレポートを分類することで、障害局所化(IRFL)を強化する。
クエリの不正確性に対処するため,LLmiRQ+と呼ばれるユーザと対話型クエリ再構成手法を導入する。
6,340件のバグ報告を含む46のプロジェクトの評価では、MRRは0.6770件、MAPは0.5118件であり、7つの最先端IRFL技術を上回っている。
論文 参考訳(メタデータ) (2024-12-04T22:47:51Z) - The Impact Of Bug Localization Based on Crash Report Mining: A Developers' Perspective [7.952391285456257]
事故報告をグループ化し,バグコードを見つけるためのアプローチを18ヶ月にわたって毎週実施した経験を報告する。
この調査で調査されたアプローチは、バギーファイルの大部分を正しく示唆していた。
論文 参考訳(メタデータ) (2024-03-16T01:23:01Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Exploring Large Language Models in Resolving Environment-Related Crash Bugs: Localizing and Repairing [36.4673637256627]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
実環境におけるクラッシュバグの解決におけるLLMの能力を評価するための,初の総合的研究を行った。
この結果から,コードクラッシュを解決する上ではローカライゼーションが最大の課題であることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-16T13:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。