Fugu-MT 論文翻訳(概要): Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces

論文の概要: Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces

arxiv url: http://arxiv.org/abs/2501.18005v1
Date: Wed, 29 Jan 2025 21:40:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:03.965738
Title: Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces
Title（参考訳）: 変異生成スタックトレースを用いた微調整大言語モデルによる故障の局所化
Authors: Neetha Jambigi, Bartosz Bogacz, Moritz Mueller, Thomas Bach, Michael Felderer,
Abstract要約: 本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。 64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
参考スコア（独自算出の注目度）: 3.3158239079459655
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Abrupt and unexpected terminations of software are termed as software crashes. They can be challenging to analyze. Finding the root cause requires extensive manual effort and expertise to connect information sources like stack traces, source code, and logs. Typical approaches to fault localization require either test failures or source code. Crashes occurring in production environments, such as that of SAP HANA, provide solely crash logs and stack traces. We present a novel approach to localize faults based only on the stack trace information and no additional runtime information, by fine-tuning large language models (LLMs). We address complex cases where the root cause of a crash differs from the technical cause, and is not located in the innermost frame of the stack trace. As the number of historic crashes is insufficient to fine-tune LLMs, we augment our dataset by leveraging code mutators to inject synthetic crashes into the code base. By fine-tuning on 64,369 crashes resulting from 4.1 million mutations of the HANA code base, we can correctly predict the root cause location of a crash with an accuracy of 66.9\% while baselines only achieve 12.6% and 10.6%. We substantiate the generalizability of our approach by evaluating on two additional open-source databases, SQLite and DuckDB, achieving accuracies of 63% and 74%, respectively. Across all our experiments, fine-tuning consistently outperformed prompting non-finetuned LLMs for localizing faults in our datasets.
Abstract（参考訳）: ソフトウェアの急激かつ予期せぬ用語は、ソフトウェアクラッシュと呼ばれる。分析が難しい場合もあります。根本原因を見つけるには、スタックトレースやソースコード、ログといった情報ソースを接続するために、広範な手作業と専門知識が必要です。フォールトローカライゼーションの典型的なアプローチは、テスト失敗かソースコードのいずれかを必要とする。 SAP HANAのようなプロダクション環境で発生するクラッシュは、クラッシュログとスタックトレースのみを提供する。本稿では,スタックトレース情報のみに基づいて,大規模言語モデル (LLM) を微調整することで,追加のランタイム情報なしで障害をローカライズする手法を提案する。クラッシュの根本原因が技術的原因と異なり、スタックトレースの最内側のフレームにない複雑なケースに対処する。 LLMを微調整するには歴史的なクラッシュの数が少ないため、コードミュータを利用してコードベースに合成クラッシュを注入することでデータセットを増大させます。 HANAコードベースの4.10万の突然変異による64,369件のクラッシュを微調整することで、66.9\%の精度でクラッシュの根本原因の位置を正確に予測でき、ベースラインは12.6%と10.6%しか達成できない。我々は、SQLiteとDuckDBの2つの追加のオープンソースデータベースで評価し、それぞれ63%と74%のアキュラシーを達成することで、このアプローチの一般化性を裏付ける。すべての実験において、微調整は、データセット内の障害をローカライズするための非微調整LDMよりも一貫して優れています。

関連論文リスト

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
Finding the Needle in the Crash Stack: Industrial-Scale Crash Root Cause Localization with AutoCrashFL [7.35168055783183]
本稿では,プログラムアンダーテスト(PUT)からのクラッシュダンプと対応するソースコードのリポジトリへのアクセスのみを必要とするクラッシュのローカライズのためのエージェントであるAutoCrashFLを提案する。我々は,3500万行以上のコードからなる産業用ソフトウェアプロジェクトであるSAPの実際のクラッシュに対してAutoCrashFLを評価した。
論文参考訳（メタデータ） (2025-10-26T04:43:33Z)
Specification-Guided Repair of Arithmetic Errors in Dafny Programs using LLMs [84.30534714651093]
本稿では,検証を意識したプログラミング言語であるDafnyに対して,革新的なAPRツールを提案する。プログラム内の各ステートメントの状態を決定するために、Hoare Logicの使用を含む一連のステップを通じて、障害をローカライズします。実世界のDafnyプログラムのベンチマークであるDafnyBenchを用いて,我々のアプローチを評価する。
論文参考訳（メタデータ） (2025-07-04T15:36:12Z)
DaiFu: In-Situ Crash Recovery for Deep Learning Systems [54.52831889359226]
本稿では,深層学習(DL)システムのためのin-situリカバリフレームワークであるDaiFuを紹介する。 DaiFuは、その場でクラッシュをインターセプトするように拡張し、プログラム実行状況の動的および瞬間的な更新を可能にする。評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2025-07-02T11:58:38Z)
Where's the Bug? Attention Probing for Scalable Fault Localization [18.699014321422023]
本稿では, 直接的位置付けラベルを使わずに, 最先端の故障位置付けを学習するBug Attention Probe(BAP)を提案する。 BAPは計算コストのごく一部で大きなオープンウェイトモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2025-02-19T18:59:32Z)
Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization [12.103194723136406]
本稿では,静的解析とLLM手法を組み合わせた説明可能なクラッシュ断層定位手法を提案する。フレームワークコードで例外をスローするステートメントのセマンティクスを理解することは、バグだらけのメソッドをアプリコードで見つけて認識するのに役立ちます。この考え方に基づいて、まず、各フレームワーク固有の例外に関連する重要な要素を記述する例外スローの要約(ETS)を設計する。そして、その重要な要素をデータ追跡して、与えられたクラッシュのバグのある候補を特定し、ソートします。
論文参考訳（メタデータ） (2024-08-22T02:18:35Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文参考訳（メタデータ） (2024-06-16T03:10:16Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization [5.7821087202452]
本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
論文参考訳（メタデータ） (2024-03-15T17:47:20Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。 Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文参考訳（メタデータ） (2023-12-16T19:12:45Z)
Exploring Large Language Models in Resolving Environment-Related Crash Bugs: Localizing and Repairing [36.4673637256627]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。実環境におけるクラッシュバグの解決におけるLLMの能力を評価するための,初の総合的研究を行った。この結果から,コードクラッシュを解決する上ではローカライゼーションが最大の課題であることが明らかとなった。
論文参考訳（メタデータ） (2023-12-16T13:41:04Z)
CrashTranslator: Automatically Reproducing Mobile Application Crashes Directly from Stack Trace [30.48737611250448]
本稿では,モバイルアプリケーションのクラッシュを自動的にスタックトレースから直接再現するCrashTranslatorという手法を提案する。 CrashTranslatorを58のAndroidアプリを含む75のクラッシュレポートで評価し、61.3%のクラッシュを再現しました。
論文参考訳（メタデータ） (2023-10-11T02:00:18Z)
Large-scale Crash Localization using Multi-Task Learning [3.4383679424643456]
我々は,スタックトレースにおける非難フレームを識別するための,新しいマルチタスクシーケンスラベリング手法を開発した。当社のモデルは、4つの人気のあるMicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価しています。
論文参考訳（メタデータ） (2021-09-29T10:26:57Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。