論文の概要: A Unified Debugging Approach via LLM-Based Multi-Agent Synergy
- arxiv url: http://arxiv.org/abs/2404.17153v1
- Date: Fri, 26 Apr 2024 04:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:04:24.279333
- Title: A Unified Debugging Approach via LLM-Based Multi-Agent Synergy
- Title(参考訳): LLMに基づくマルチエージェント・シナジーによる統一デバッグ手法
- Authors: Cheryl Lee, Chunqiu Steven Xia, Jen-tse Huang, Zhouruixin Zhu, Lingming Zhang, Michael R. Lyu,
- Abstract要約: 我々は,Large Language Models (LLMs) を通じて,最初の自動統合デバッグフレームワーク FixAgent を提案する。
FixAgentは、エンドツーエンドのローカライズ、修復、バグの分析を行うことができる。
広く使われているデータセットQuixBugsの実験によると、FixAgentは80のバグのうち79の修正を正しく行っており、そのうち9つは修正されていない。
- 参考スコア(独自算出の注目度): 41.07986475196358
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Tremendous efforts have been devoted to automating software debugging, a time-consuming process involving fault localization and repair generation. Recently, Large Language Models (LLMs) have shown great potential in automated debugging. However, we identified three challenges posed to traditional and LLM-based debugging tools: 1) the upstream imperfection of fault localization affects the downstream repair, 2) the deficiency in handling complex logic errors, and 3) the ignorance of program contexts. In this context, we propose the first automated, unified debugging framework, FixAgent, via LLM agent synergy. FixAgent can perform end-to-end localization, repair, and analysis of bugs. Our insight is that LLMs can benefit from general software engineering principles recognized by human developers in debugging, such as rubber duck debugging, enabling a better understanding of program functionality and logic bugs. Hence, we create three designs inspired by rubber ducking to address these challenges. They are agent specialization and synergy, key variable tracking, and program context comprehension, which request LLMs to provide explicit explanations and force them to focus on crucial program logic information. Experiments on the widely used dataset QuixBugs show that FixAgent correctly fixes 79 out of 80 bugs, 9 of which have never been fixed. It also plausibly patches 1.9X more defects than the best-performing repair tool on CodeFlaws, even with no bug location information and fewer than 0.6% sampling times. On average, FixAgent increases about 20% plausible and correct fixes compared to its base model using different LLMs, showing the effectiveness of our designs. Moreover, the correctness rate of FixAgent reaches remarkably 97.26%, indicating that FixAgent can potentially overcome the overfitting issue of the existing approaches.
- Abstract(参考訳): ソフトウェアのデバッグは、フォールトローカライゼーションと修復生成を含む時間を要するプロセスである。
最近、Large Language Models (LLMs) は自動デバッグに大きな可能性を示している。
しかし、従来のLCMベースのデバッグツールがもたらす3つの課題を特定した。
1) 上流の断層の局地化の不備は下流の修復に影響を及ぼす。
2 複雑な論理的誤りの処理に欠けていること、及び
3)プログラムコンテキストの無知。
この文脈では、LLMエージェントのシナジーを介して、最初の自動化された統合デバッグフレームワークであるFixAgentを提案する。
FixAgentは、エンドツーエンドのローカライズ、修復、バグの分析を行うことができる。
私たちの洞察では、LCMは、ゴム製のアヒルデバッギングのようなデバッグにおいて、人間の開発者が認識する一般的なソフトウェアエンジニアリングの原則の恩恵を受けることができ、プログラム機能やロジックのバグをよりよく理解できます。
したがって、これらの課題に対処するために、ゴム製のアヒルにインスパイアされた3つのデザインを作成します。
これらはエージェントの専門化とシナジー、キー変数追跡、プログラムコンテキスト理解であり、LCMに明確な説明を提供し、重要なプログラム論理情報に集中するよう要求する。
広く使われているデータセットQuixBugsの実験によると、FixAgentは80のバグのうち79の修正を正しく行っており、そのうち9つは修正されていない。
また、バグの位置情報が無く、サンプリング時間が0.6%未満であるにもかかわらず、CodeFlawsで最高のパフォーマンスの修理ツールよりも1.9倍の欠陥をパッチする。
平均すると、FixAgentは、異なるLLMを用いたベースモデルと比較して、約20%の信頼性と修正率を向上し、我々の設計の有効性を示している。
さらに、FixAgentの正しさ率は97.26%に達し、FixAgentが既存のアプローチの過度な問題を克服できる可能性を示唆している。
関連論文リスト
- An Empirical Study on LLM-based Agents for Automated Bug Fixing [2.433168823911037]
大規模な言語モデル (LLM) と LLM ベースのエージェントが自動的にバグを修正するために適用されている。
自動バグ修正のためのSWE-bench Liteベンチマークにおいて,プロプライエタリでオープンソースな7つのシステムについて検討した。
論文 参考訳(メタデータ) (2024-11-15T14:19:15Z) - Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。
Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。
Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-11-07T06:36:19Z) - REDO: Execution-Free Runtime Error Detection for COding Agents [3.9903610503301072]
Execution-free Error Detection for Coding Agents (REDO)は、実行時のエラーと静的解析ツールを統合する方法である。
我々はREDOが11.0%の精度と9.1%の重み付きF1スコアを達成し、最先端の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-10-10T18:06:29Z) - From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging [5.910272203315325]
さまざまなレベルの粒度でバグを分離,識別,解決し,階層的なコードデバッガであるMulti-Granularity Debugger (MG Debugger)を紹介した。
MGデバッガは問題のあるコードをサブファンクションの階層木構造に分解し、各レベルは特定のエラーの粒度を表す。
これは、HumanEvalのシード世代の精度を18.9%向上させ、HumanEvalFixの97.6%の修復成功率を達成した。
論文 参考訳(メタデータ) (2024-10-02T03:57:21Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z) - On the Resilience of Multi-Agent Systems with Malicious Agents [58.79302663733702]
本稿では,悪意のあるエージェント下でのマルチエージェントシステムのレジリエンスについて検討する。
我々は、任意のエージェントを悪意のあるエージェントに変換する2つの方法、AutoTransformとAutoInjectを考案した。
各エージェントが他のエージェントの出力に挑戦するためのメカニズムを導入するか、あるいはメッセージのレビューと修正を行う追加のエージェントを導入することで、システムのレジリエンスを高めることができることを示す。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。