論文の概要: SelfHeal: Empirical Fix Pattern Analysis and Bug Repair in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.17699v1
- Date: Mon, 20 Apr 2026 01:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.64599
- Title: SelfHeal: Empirical Fix Pattern Analysis and Bug Repair in LLM Agents
- Title(参考訳): 自己修復: LLM剤の固定パターン解析とバグ修復
- Authors: Niful Islam, Muhammad Anas Raza, Mohammad Wardat,
- Abstract要約: Stack Overflow、GitHub、HuggingFaceフォーラムからバギーなポストとコードスニペットを研究します。
我々は、LLMエージェントのバグに対する最初のベンチマークデータセットであるAgentDefectを紹介する。
LLMエージェントのバグ修正を目的としたマルチエージェントシステムであるSelfHealを提案する。
- 参考スコア(独自算出の注目度): 3.8743350688734988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have transformed software development and AI applications. While LLMs are designed for text processing, LLM agents extend this capability by enabling autonomous actions, tool use, and multi-step task completion. As this field grows, developers face new challenges in debugging these complex systems. To address this challenge, we present the first empirical study on bug fix patterns in LLM agents. We study buggy posts and code snippets from three platforms: Stack Overflow, GitHub, and HuggingFace Forums. We examine their fix patterns, the components where fixes are applied, and the programming languages and frameworks involved. Furthermore, we introduce AgentDefect, the first benchmark dataset for bugs in LLM agents. The dataset contains 37 runtime buggy instances along with fixed code and test files. Finally, we present SelfHeal, a multi-agent system designed to fix bugs in LLM agents. The system leverages two independent ReAct agents: the fix agent and the critic agent. These agents use tools that provide both internal knowledge (fix rules) and external knowledge (web search) to propose and validate fixes. Our evaluation shows that SelfHeal with Gemini 3 Pro as the backbone LLM outperforms both baseline and state-of-the-art approaches by a significant margin.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア開発とAIアプリケーションを変革した。
LLMはテキスト処理用に設計されているが、LLMエージェントは、自律的なアクション、ツールの使用、マルチステップタスク補完を可能にすることで、この機能を拡張している。
このフィールドが拡大するにつれて、開発者はこれらの複雑なシステムをデバッグする上で、新たな課題に直面します。
この課題に対処するため,LLMエージェントのバグ修正パターンに関する実証的研究を行った。
Stack Overflow、GitHub、HuggingFace Forumsという3つのプラットフォームから、バグの多い投稿とコードスニペットを研究しています。
修正パターン、修正が適用されるコンポーネント、および関連するプログラミング言語やフレームワークについて検討する。
さらに、LLMエージェントのバグに対する最初のベンチマークデータセットであるAgentDefectを紹介する。
データセットには37のランタイムバグのあるインスタンスと、固定されたコードとテストファイルが含まれている。
最後に,LLMエージェントのバグ修正を目的としたマルチエージェントシステムであるSelfHealを紹介する。
このシステムは2つの独立したReActエージェント、すなわち修正エージェントと批判エージェントを利用する。
これらのエージェントは、内部知識(修正規則)と外部知識(Web検索)の両方を提供するツールを使用して修正を提案し、検証する。
Gemini 3 Pro をバックボーンとしたSelfHeal は,ベースラインと最先端の両方のアプローチにおいて,有意な差で優れていた。
関連論文リスト
- When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling [3.0882445204950013]
LLMエージェントベースのソフトウェアにおいて、バグタイプ、根本原因、および影響に関する最初の包括的研究を行う。
Stack Overflow、GitHub、Hugging Faceフォーラムから1,187のバグ関連の投稿とコードスニペットを収集し、分析しました。
私たちはBugReActというReActエージェントを開発し、データセットのバグを検出し、注釈付けできるかどうかを判断するための適切な外部ツールを備えています。
論文 参考訳(メタデータ) (2026-01-21T18:13:10Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。
本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。
その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文 参考訳(メタデータ) (2025-07-21T17:30:16Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation [0.0]
最近27の論文がレビューされ、2つのグループに分けられた。
最初のグループは、意味的エラーの特定を含む、バグの検出と修復のための新しいメソッドで構成されている。
2つ目のグループはコード生成に精通しており、プログラミングとタスク固有のモデルのために微調整された汎用LLMの概要を提供している。
また、識別子認識トレーニング、命令レベルでの微調整、セマンティックコード構造の導入など、コード生成を改善する方法も提示されている。
論文 参考訳(メタデータ) (2024-11-12T06:47:54Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。