論文の概要: A Preliminary Evaluation of LLM-Based Fault Localization
- arxiv url: http://arxiv.org/abs/2308.05487v2
- Date: Sat, 26 Aug 2023 05:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:40:40.437214
- Title: A Preliminary Evaluation of LLM-Based Fault Localization
- Title(参考訳): LLMに基づく断層定位の基礎的検討
- Authors: Sungmin Kang, Gabin An, Shin Yoo
- Abstract要約: 本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
- 参考スコア(独自算出の注目度): 14.390580776549866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown a surprising level of performance on
multiple software engineering problems. However, they have not yet been applied
to Fault Localization (FL), in which one must find the code element responsible
for a bug from a potentially vast codebase. Nonetheless, LLM application to FL
has the potential to benefit developers both in terms of performance and
explainability. In this work, we present AutoFL, an automated fault
localization technique that only requires a single failing test, and in its
fault localization process generates an explanation about why the given test
fails. Using the function call API of the OpenAI LLM, ChatGPT, we provide tools
that allow it to explore a large source code repository, which would otherwise
pose a significant challenge as it would be impossible to fit all the source
code within the limited prompt length. Our results indicate that, on the widely
used Defects4J benchmark, AutoFL can identify the faulty method on the first
try more often than all standalone techniques we compared against from prior
work. Nonetheless, there is ample room to improve performance, and we encourage
further experimentation of language model-based FL as a promising research
area.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のソフトウェアエンジニアリング問題において驚くほどのパフォーマンスを示している。
しかし、フォールトローカライズ(fl)にはまだ適用されていないため、潜在的に巨大なコードベースからバグの原因となるコード要素を見つけなければならない。
それでも、FLへのLLMアプリケーションには、パフォーマンスと説明可能性の両方において、開発者に利益をもたらす可能性がある。
そこで本研究では,単一障害テストのみを必要とする自動障害定位手法であるautoflを提案し,その障害定位プロセスにおいて,与えられたテストが失敗した理由を説明する。
OpenAI LLMの関数呼び出しAPIであるChatGPTを使って、大きなソースコードリポジトリを探索できるツールを提供しています。
この結果から,広く使用されている defects4j ベンチマークにおいて,autofl は,先行研究から比較したすべてのスタンドアロン手法よりも,最初の試行で故障したメソッドを識別できることがわかった。
それでも性能向上の余地は十分あり、将来的な研究分野として言語モデルに基づくFLのさらなる実験を奨励する。
関連論文リスト
- Perplexed: Understanding When Large Language Models are Confused [3.4208414448496027]
本稿では,言語モデルが複雑になる場所を探索するライブラリであるperplexedを紹介する。
Codetokenizerと呼ばれるコードモデルの解析を支援するために構築した追加ツールを使用して、コード生成のためのLLM(Large Language Models)に焦点を当てたケーススタディを実施しました。
我々の研究したコードLLMは、コードが構文的に正しくないコーディング構造において、最悪のパフォーマンスを示しました。
論文 参考訳(メタデータ) (2024-04-09T22:03:39Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization [5.7821087202452]
本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。
私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
論文 参考訳(メタデータ) (2024-03-15T17:47:20Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Large Language Models in Fault Localisation [32.87044163543427]
本稿では,2つの最先端LCMであるChatGPT-3.5とChatGPT-4が断層局所化に与える影響について検討する。
関数レベルのコンテキストでは、ChatGPT-4は既存のすべてのフォールトローカライゼーションメソッドより優れています。
しかし、Defects4Jデータセットのコードコンテキストがクラスレベルに拡張されると、ChatGPT-4のパフォーマンスは大幅に低下する。
論文 参考訳(メタデータ) (2023-08-29T13:07:27Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。