論文の概要: Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces
- arxiv url: http://arxiv.org/abs/2501.18005v1
- Date: Wed, 29 Jan 2025 21:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:40.137420
- Title: Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces
- Title(参考訳): 変異生成スタックトレースを用いた微調整大言語モデルによる故障の局所化
- Authors: Neetha Jambigi, Bartosz Bogacz, Moritz Mueller, Thomas Bach, Michael Felderer,
- Abstract要約: 本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。
64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
- 参考スコア(独自算出の注目度): 3.3158239079459655
- License:
- Abstract: Abrupt and unexpected terminations of software are termed as software crashes. They can be challenging to analyze. Finding the root cause requires extensive manual effort and expertise to connect information sources like stack traces, source code, and logs. Typical approaches to fault localization require either test failures or source code. Crashes occurring in production environments, such as that of SAP HANA, provide solely crash logs and stack traces. We present a novel approach to localize faults based only on the stack trace information and no additional runtime information, by fine-tuning large language models (LLMs). We address complex cases where the root cause of a crash differs from the technical cause, and is not located in the innermost frame of the stack trace. As the number of historic crashes is insufficient to fine-tune LLMs, we augment our dataset by leveraging code mutators to inject synthetic crashes into the code base. By fine-tuning on 64,369 crashes resulting from 4.1 million mutations of the HANA code base, we can correctly predict the root cause location of a crash with an accuracy of 66.9\% while baselines only achieve 12.6% and 10.6%. We substantiate the generalizability of our approach by evaluating on two additional open-source databases, SQLite and DuckDB, achieving accuracies of 63% and 74%, respectively. Across all our experiments, fine-tuning consistently outperformed prompting non-finetuned LLMs for localizing faults in our datasets.
- Abstract(参考訳): ソフトウェアの急激かつ予期せぬ用語は、ソフトウェアクラッシュと呼ばれる。
分析が難しい場合もあります。
根本原因を見つけるには、スタックトレースやソースコード、ログといった情報ソースを接続するために、広範な手作業と専門知識が必要です。
フォールトローカライゼーションの典型的なアプローチは、テスト失敗かソースコードのいずれかを必要とする。
SAP HANAのようなプロダクション環境で発生するクラッシュは、クラッシュログとスタックトレースのみを提供する。
本稿では,スタックトレース情報のみに基づいて,大規模言語モデル (LLM) を微調整することで,追加のランタイム情報なしで障害をローカライズする手法を提案する。
クラッシュの根本原因が技術的原因と異なり、スタックトレースの最内側のフレームにない複雑なケースに対処する。
LLMを微調整するには歴史的なクラッシュの数が少ないため、コードミュータを利用してコードベースに合成クラッシュを注入することでデータセットを増大させます。
HANAコードベースの4.10万の突然変異による64,369件のクラッシュを微調整することで、66.9\%の精度でクラッシュの根本原因の位置を正確に予測でき、ベースラインは12.6%と10.6%しか達成できない。
我々は、SQLiteとDuckDBの2つの追加のオープンソースデータベースで評価し、それぞれ63%と74%のアキュラシーを達成することで、このアプローチの一般化性を裏付ける。
すべての実験において、微調整は、データセット内の障害をローカライズするための非微調整LDMよりも一貫して優れています。
関連論文リスト
- Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization [12.103194723136406]
本稿では,静的解析とLLM手法を組み合わせた説明可能なクラッシュ断層定位手法を提案する。
フレームワークコードで例外をスローするステートメントのセマンティクスを理解することは、バグだらけのメソッドをアプリコードで見つけて認識するのに役立ちます。
この考え方に基づいて、まず、各フレームワーク固有の例外に関連する重要な要素を記述する例外スローの要約(ETS)を設計する。
そして、その重要な要素をデータ追跡して、与えられたクラッシュのバグのある候補を特定し、ソートします。
論文 参考訳(メタデータ) (2024-08-22T02:18:35Z) - KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。
現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。
このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文 参考訳(メタデータ) (2024-07-02T21:44:22Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization [5.7821087202452]
本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。
私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
論文 参考訳(メタデータ) (2024-03-15T17:47:20Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - CrashTranslator: Automatically Reproducing Mobile Application Crashes
Directly from Stack Trace [30.48737611250448]
本稿では,モバイルアプリケーションのクラッシュを自動的にスタックトレースから直接再現するCrashTranslatorという手法を提案する。
CrashTranslatorを58のAndroidアプリを含む75のクラッシュレポートで評価し、61.3%のクラッシュを再現しました。
論文 参考訳(メタデータ) (2023-10-11T02:00:18Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Large-scale Crash Localization using Multi-Task Learning [3.4383679424643456]
我々は,スタックトレースにおける非難フレームを識別するための,新しいマルチタスクシーケンスラベリング手法を開発した。
当社のモデルは、4つの人気のあるMicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価しています。
論文 参考訳(メタデータ) (2021-09-29T10:26:57Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。