論文の概要: Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization
- arxiv url: http://arxiv.org/abs/2403.10507v1
- Date: Fri, 15 Mar 2024 17:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 16:11:26.544890
- Title: Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization
- Title(参考訳): LLMによる欠陥コードのデミスティフィケーション:説明可能な故障位置推定のためのステップバイステップ推論
- Authors: Ratnadira Widyasari, Jia Wei Ang, Truong Giang Nguyen, Neil Sharma, David Lo,
- Abstract要約: 本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。
私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
- 参考スコア(独自算出の注目度): 5.7821087202452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fault localization is a critical process that involves identifying specific program elements responsible for program failures. Manually pinpointing these elements, such as classes, methods, or statements, which are associated with a fault is laborious and time-consuming. To overcome this challenge, various fault localization tools have been developed. These tools typically generate a ranked list of suspicious program elements. However, this information alone is insufficient. A prior study emphasized that automated fault localization should offer a rationale. In this study, we investigate the step-by-step reasoning for explainable fault localization. We explore the potential of Large Language Models (LLM) in assisting developers in reasoning about code. We proposed FuseFL that utilizes several combinations of information to enhance the LLM results which are spectrum-based fault localization results, test case execution outcomes, and code description (i.e., explanation of what the given code is intended to do). We conducted our investigation using faulty code from Refactory dataset. First, we evaluate the performance of the automated fault localization. Our results demonstrate a more than 30% increase in the number of successfully localized faults at Top-1 compared to the baseline. To evaluate the explanations generated by FuseFL, we create a dataset of human explanations that provide step-by-step reasoning as to why specific lines of code are considered faulty. This dataset consists of 324 faulty code files, along with explanations for 600 faulty lines. Furthermore, we also conducted human studies to evaluate the explanations. We found that for 22 out of the 30 randomly sampled cases, FuseFL generated correct explanations.
- Abstract(参考訳): フォールトローカライゼーションは、プログラムの障害の原因となる特定のプログラム要素を特定することを含む重要なプロセスである。
障害に関連するクラス、メソッド、ステートメントなど、これらの要素を手動で特定することは、手間と時間を要する。
この課題を克服するために、様々な障害ローカライゼーションツールが開発されている。
これらのツールは典型的には不審なプログラム要素のランキングリストを生成する。
しかし、この情報だけでは不十分である。
以前の研究では、自動障害ローカライゼーションは合理的であるべきだと強調されていた。
本研究では,説明可能な故障位置推定のためのステップバイステップ推論について検討する。
コードを推論する開発者を支援する上で,LLM(Large Language Models)の可能性を探る。
本研究では,複数の情報の組み合わせを用いて,スペクトルベースの障害局所化結果,テストケース実行結果,およびコード記述(例えば,与えられたコードが何を意図しているかの説明)であるLLM結果を強化するFuseFLを提案する。
Refactoryデータセットの欠陥コードを用いて調査を行った。
まず,自動故障局所化の性能を評価する。
以上の結果から,Top-1における局部断層の出現率は,ベースラインに比べて30%以上増加した。
FuseFLが生成した説明を評価するために、特定の行のコードに障害がある理由をステップバイステップで推論する、人間の説明のデータセットを作成します。
このデータセットは、324の欠陥コードファイルと600の欠陥行の説明で構成されている。
また,人間による研究も実施し,その説明について検討した。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
関連論文リスト
- AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - ConDefects: A New Dataset to Address the Data Leakage Concern for
LLM-based Fault Localization and Program Repair [22.342625625700908]
欠陥(Condefects)は、このような重複をなくすために慎重にキュレートされた、真断層の新しいデータセットである。
には1,254のJavaの欠陥プログラムと1,625のPythonの欠陥プログラムが含まれている。
障害位置と対応するコードバージョンとをペアにすることで、障害のローカライゼーションとプログラムの修正関連研究に適したものにします。
論文 参考訳(メタデータ) (2023-10-25T00:06:02Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - A Preliminary Evaluation of LLM-Based Fault Localization [14.390580776549866]
本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - DeepFD: Automated Fault Diagnosis and Localization for Deep Learning
Programs [15.081278640511998]
DeepFDは学習ベースの障害診断およびローカライゼーションフレームワークである。
フォールトローカライゼーションタスクを学習問題にマップする。
52%の欠陥DLプログラムを正しく診断し、最先端の成果によって達成された約半分(27%)と比較する。
論文 参考訳(メタデータ) (2022-05-04T08:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。