論文の概要: AgentFL: Scaling LLM-based Fault Localization to Project-Level Context
- arxiv url: http://arxiv.org/abs/2403.16362v1
- Date: Mon, 25 Mar 2024 01:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.327947
- Title: AgentFL: Scaling LLM-based Fault Localization to Project-Level Context
- Title(参考訳): AgentFL: LLMベースのフォールトローカライゼーションをプロジェクトレベルコンテキストに拡張
- Authors: Yihao Qin, Shangwen Wang, Yiling Lou, Jinhao Dong, Kaixin Wang, Xiaoling Li, Xiaoguang Mao,
- Abstract要約: 本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
- 参考スコア(独自算出の注目度): 11.147750199280813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fault Localization (FL) is an essential step during the debugging process. With the strong capabilities of code comprehension, the recent Large Language Models (LLMs) have demonstrated promising performance in diagnosing bugs in the code. Nevertheless, due to LLMs' limited performance in handling long contexts, existing LLM-based fault localization remains on localizing bugs within a small code scope (i.e., a method or a class), which struggles to diagnose bugs for a large code scope (i.e., an entire software system). To address the limitation, this paper presents AgentFL, a multi-agent system based on ChatGPT for automated fault localization. By simulating the behavior of a human developer, AgentFL models the FL task as a three-step process, which involves comprehension, navigation, and confirmation. Within each step, AgentFL hires agents with diversified expertise, each of which utilizes different tools to handle specific tasks. Particularly, we adopt a series of auxiliary strategies such as Test Behavior Tracking, Document-Guided Search, and Multi-Round Dialogue to overcome the challenges in each step. The evaluation on the widely used Defects4J-V1.2.0 benchmark shows that AgentFL can localize 157 out of 395 bugs within Top-1, which outperforms the other LLM-based approaches and exhibits complementarity to the state-of-the-art learning-based techniques. Additionally, we confirm the indispensability of the components in AgentFL with the ablation study and demonstrate the usability of AgentFL through a user study. Finally, the cost analysis shows that AgentFL spends an average of only 0.074 dollars and 97 seconds for a single bug.
- Abstract(参考訳): フォールトローカライゼーション(FL)は、デバッグプロセスにおいて不可欠なステップである。
コード理解の強力な能力により、最近のLarge Language Models(LLM)は、コードのバグを診断する上で有望なパフォーマンスを示している。
しかしながら、LLMが長いコンテキストを扱う上での限られた性能のため、既存のLLMベースの障害ローカライゼーションは、大きなコードスコープ(すなわち、ソフトウェアシステム全体)のバグの診断に苦労する小さなコードスコープ(メソッドやクラス)内のバグのローカライズに留まっている。
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLを提案する。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
それぞれのステップでAgentFLは、さまざまな専門知識を持つエージェントを雇う。
特に,テスト行動追跡,ドキュメントガイド検索,多言語対話といった一連の補助的戦略を採用し,各ステップの課題を克服する。
広く使われているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
さらに,AgentFLにおけるコンポーネントの欠如をアブレーション研究で確認し,ユーザスタディを通じてAgentFLのユーザビリティを実証する。
最後に、コスト分析の結果、AgentFLは1つのバグに対して平均0.074ドルと97秒しか費やしていないことがわかった。
関連論文リスト
- Fault Localization from the Semantic Code Search Perspective [8.287095430092835]
本稿では,障害局所化タスクをクエリ生成と障害検索の2つのステップに分解する障害ローカライザを提案する。
CosFLはTop-1で324のバグをローカライズすることに成功し、最先端のアプローチを26.6%-57.3%上回った。
論文 参考訳(メタデータ) (2024-11-26T08:52:13Z) - SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。
既存の評価は最終的な成功率にのみ依存する傾向がある。
本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文 参考訳(メタデータ) (2024-10-09T17:59:00Z) - Enhancing Fault Localization Through Ordered Code Analysis with LLM Agents and Self-Reflection [8.22737389683156]
大規模言語モデル(LLM)は、コード理解と推論を強化することによって、フォールトローカライゼーションの有望な改善を提供する。
LLM4FL は,SBFL ランキングと配当戦略を統合した新しい LLM4FL の故障局所化手法である。
以上の結果から,LLM4FLはTop-1の精度でAutoFLを19.27%上回り,DeepFLやGraceといった最先端の監視技術を上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - A Quantitative and Qualitative Evaluation of LLM-Based Explainable Fault Localization [12.80414941523501]
AutoFLは、提案された障害位置とともに、バグの説明を生成する。
JavaとPythonの798の現実世界のバグの実験では、AutoFLはメソッドレベルのcc@1を、ベースライン上で最大233.3%改善した。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。