論文の概要: A Preliminary Evaluation of LLM-Based Fault Localization
- arxiv url: http://arxiv.org/abs/2308.05487v2
- Date: Sat, 26 Aug 2023 05:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 14:40:40.437214
- Title: A Preliminary Evaluation of LLM-Based Fault Localization
- Title(参考訳): LLMに基づく断層定位の基礎的検討
- Authors: Sungmin Kang, Gabin An, Shin Yoo
- Abstract要約: 本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
- 参考スコア(独自算出の注目度): 14.390580776549866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown a surprising level of performance on
multiple software engineering problems. However, they have not yet been applied
to Fault Localization (FL), in which one must find the code element responsible
for a bug from a potentially vast codebase. Nonetheless, LLM application to FL
has the potential to benefit developers both in terms of performance and
explainability. In this work, we present AutoFL, an automated fault
localization technique that only requires a single failing test, and in its
fault localization process generates an explanation about why the given test
fails. Using the function call API of the OpenAI LLM, ChatGPT, we provide tools
that allow it to explore a large source code repository, which would otherwise
pose a significant challenge as it would be impossible to fit all the source
code within the limited prompt length. Our results indicate that, on the widely
used Defects4J benchmark, AutoFL can identify the faulty method on the first
try more often than all standalone techniques we compared against from prior
work. Nonetheless, there is ample room to improve performance, and we encourage
further experimentation of language model-based FL as a promising research
area.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数のソフトウェアエンジニアリング問題において驚くほどのパフォーマンスを示している。
しかし、フォールトローカライズ(fl)にはまだ適用されていないため、潜在的に巨大なコードベースからバグの原因となるコード要素を見つけなければならない。
それでも、FLへのLLMアプリケーションには、パフォーマンスと説明可能性の両方において、開発者に利益をもたらす可能性がある。
そこで本研究では,単一障害テストのみを必要とする自動障害定位手法であるautoflを提案し,その障害定位プロセスにおいて,与えられたテストが失敗した理由を説明する。
OpenAI LLMの関数呼び出しAPIであるChatGPTを使って、大きなソースコードリポジトリを探索できるツールを提供しています。
この結果から,広く使用されている defects4j ベンチマークにおいて,autofl は,先行研究から比較したすべてのスタンドアロン手法よりも,最初の試行で故障したメソッドを識別できることがわかった。
それでも性能向上の余地は十分あり、将来的な研究分野として言語モデルに基づくFLのさらなる実験を奨励する。
関連論文リスト
- Fault Localization from the Semantic Code Search Perspective [8.287095430092835]
本稿では,障害局所化タスクをクエリ生成と障害検索の2つのステップに分解する障害ローカライザを提案する。
CosFLはTop-1で324のバグをローカライズすることに成功し、最先端のアプローチを26.6%-57.3%上回った。
論文 参考訳(メタデータ) (2024-11-26T08:52:13Z) - FlexFL: Flexible and Effective Fault Localization with Open-Source Large Language Models [11.86369546251309]
我々は,FlexFL という新しい LLM ベースのFL フレームワークを提案し,様々な種類のバグ関連情報を柔軟に活用する。
軽量なオープンソースのLLM Llama3-8Bを持つFlexFLは、2つの最先端のLLMベースのFLアプローチであるAutoFLとAgentFLよりも42と63のバグを発見できることを示す。
論文 参考訳(メタデータ) (2024-11-16T06:08:14Z) - Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。
LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。
以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。