論文の概要: AgentFL: Scaling LLM-based Fault Localization to Project-Level Context
- arxiv url: http://arxiv.org/abs/2403.16362v1
- Date: Mon, 25 Mar 2024 01:58:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:17:05.327947
- Title: AgentFL: Scaling LLM-based Fault Localization to Project-Level Context
- Title(参考訳): AgentFL: LLMベースのフォールトローカライゼーションをプロジェクトレベルコンテキストに拡張
- Authors: Yihao Qin, Shangwen Wang, Yiling Lou, Jinhao Dong, Kaixin Wang, Xiaoling Li, Xiaoguang Mao,
- Abstract要約: 本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
- 参考スコア(独自算出の注目度): 11.147750199280813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fault Localization (FL) is an essential step during the debugging process. With the strong capabilities of code comprehension, the recent Large Language Models (LLMs) have demonstrated promising performance in diagnosing bugs in the code. Nevertheless, due to LLMs' limited performance in handling long contexts, existing LLM-based fault localization remains on localizing bugs within a small code scope (i.e., a method or a class), which struggles to diagnose bugs for a large code scope (i.e., an entire software system). To address the limitation, this paper presents AgentFL, a multi-agent system based on ChatGPT for automated fault localization. By simulating the behavior of a human developer, AgentFL models the FL task as a three-step process, which involves comprehension, navigation, and confirmation. Within each step, AgentFL hires agents with diversified expertise, each of which utilizes different tools to handle specific tasks. Particularly, we adopt a series of auxiliary strategies such as Test Behavior Tracking, Document-Guided Search, and Multi-Round Dialogue to overcome the challenges in each step. The evaluation on the widely used Defects4J-V1.2.0 benchmark shows that AgentFL can localize 157 out of 395 bugs within Top-1, which outperforms the other LLM-based approaches and exhibits complementarity to the state-of-the-art learning-based techniques. Additionally, we confirm the indispensability of the components in AgentFL with the ablation study and demonstrate the usability of AgentFL through a user study. Finally, the cost analysis shows that AgentFL spends an average of only 0.074 dollars and 97 seconds for a single bug.
- Abstract(参考訳): フォールトローカライゼーション(FL)は、デバッグプロセスにおいて不可欠なステップである。
コード理解の強力な能力により、最近のLarge Language Models(LLM)は、コードのバグを診断する上で有望なパフォーマンスを示している。
しかしながら、LLMが長いコンテキストを扱う上での限られた性能のため、既存のLLMベースの障害ローカライゼーションは、大きなコードスコープ(すなわち、ソフトウェアシステム全体)のバグの診断に苦労する小さなコードスコープ(メソッドやクラス)内のバグのローカライズに留まっている。
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLを提案する。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
それぞれのステップでAgentFLは、さまざまな専門知識を持つエージェントを雇う。
特に,テスト行動追跡,ドキュメントガイド検索,多言語対話といった一連の補助的戦略を採用し,各ステップの課題を克服する。
広く使われているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
さらに,AgentFLにおけるコンポーネントの欠如をアブレーション研究で確認し,ユーザスタディを通じてAgentFLのユーザビリティを実証する。
最後に、コスト分析の結果、AgentFLは1つのバグに対して平均0.074ドルと97秒しか費やしていないことがわかった。
関連論文リスト
- A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [41.07986475196358]
我々は,Large Language Models (LLMs) を通じて,最初の自動統合デバッグフレームワーク FixAgent を提案する。
FixAgentは、エンドツーエンドのローカライズ、修復、バグの分析を行うことができる。
広く使われているデータセットQuixBugsの実験によると、FixAgentは80のバグのうち79の修正を正しく行っており、そのうち9つは修正されていない。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Large Language Models for Test-Free Fault Localization [11.080712737595174]
テストカバレッジ情報なしでバグの行を特定できる言語モデルに基づくフォールトローカライズ手法を提案する。
5億5000万、60億、160億のパラメータを持つ言語モデルを、手作業でキュレートされた小さなプログラムコーパスで微調整します。
実験により、LLMAOは最先端の機械学習フォールトローカライゼーション(MLFL)ベースラインを2.3%-54.4%改善し、トップ5の結果を14.4%-35.6%改善した。
論文 参考訳(メタデータ) (2023-10-03T01:26:39Z) - Large Language Models in Fault Localisation [32.87044163543427]
本稿では,2つの最先端LCMであるChatGPT-3.5とChatGPT-4が断層局所化に与える影響について検討する。
関数レベルのコンテキストでは、ChatGPT-4は既存のすべてのフォールトローカライゼーションメソッドより優れています。
しかし、Defects4Jデータセットのコードコンテキストがクラスレベルに拡張されると、ChatGPT-4のパフォーマンスは大幅に低下する。
論文 参考訳(メタデータ) (2023-08-29T13:07:27Z) - A Preliminary Evaluation of LLM-Based Fault Localization [14.390580776549866]
本稿では,単一障害テストのみを必要とする自動障害ローカライゼーション手法であるAutoFLについて述べる。
我々の結果は、広く使われているDefects4Jベンチマークにおいて、AutoFLは、以前の作業から比較したすべてのスタンドアロン技術よりも、最初の試行で失敗するメソッドを特定することができることを示している。
論文 参考訳(メタデータ) (2023-08-10T10:26:55Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - FLAG: Finding Line Anomalies (in code) with Generative AI [18.612900041820875]
FLAGは、生成AIの語彙能力、特にLarge Language Models(LLM)に基づいている。
C、Python、Verilogで121のベンチマークを使用します。
FLAGは101の欠陥を識別でき、検索スペースを12-17%に削減できる。
論文 参考訳(メタデータ) (2023-06-22T03:04:56Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。