論文の概要: When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling
- arxiv url: http://arxiv.org/abs/2601.15232v1
- Date: Wed, 21 Jan 2026 18:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.485951
- Title: When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling
- Title(参考訳): エージェントが機能しない場合:自動ラベリングによるLDMエージェントのバグの包括的調査
- Authors: Niful Islam, Ragib Shahriar Ayon, Deepak George Thomas, Shibbir Ahmed, Mohammad Wardat,
- Abstract要約: LLMエージェントベースのソフトウェアにおいて、バグタイプ、根本原因、および影響に関する最初の包括的研究を行う。
Stack Overflow、GitHub、Hugging Faceフォーラムから1,187のバグ関連の投稿とコードスニペットを収集し、分析しました。
私たちはBugReActというReActエージェントを開発し、データセットのバグを検出し、注釈付けできるかどうかを判断するための適切な外部ツールを備えています。
- 参考スコア(独自算出の注目度): 3.0882445204950013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have revolutionized intelligent application development. While standalone LLMs cannot perform any actions, LLM agents address the limitation by integrating tools. However, debugging LLM agents is difficult and costly as the field is still in it's early stage and the community is underdeveloped. To understand the bugs encountered during agent development, we present the first comprehensive study of bug types, root causes, and effects in LLM agent-based software. We collected and analyzed 1,187 bug-related posts and code snippets from Stack Overflow, GitHub, and Hugging Face forums, focused on LLM agents built with seven widely used LLM frameworks as well as custom implementations. For a deeper analysis, we have also studied the component where the bug occurred, along with the programming language and framework. This study also investigates the feasibility of automating bug identification. For that, we have built a ReAct agent named BugReAct, equipped with adequate external tools to determine whether it can detect and annotate the bugs in our dataset. According to our study, we found that BugReAct equipped with Gemini 2.5 Flash achieved a remarkable performance in annotating bug characteristics with an average cost of 0.01 USD per post/code snippet.
- Abstract(参考訳): 大規模言語モデル(LLM)はインテリジェントアプリケーション開発に革命をもたらした。
スタンドアロンのLLMはいかなるアクションも実行できないが、LDMエージェントはツールを統合することで制限に対処する。
しかし、LLMエージェントのデバッグは、フィールドがまだ初期段階にあり、コミュニティが未開発であるため、困難でコストがかかる。
エージェント開発中に発生するバグを理解するため,LLMエージェントベースのソフトウェアにおいて,バグの種類,根本原因,および影響に関する総合的研究を行った。
Stack Overflow、GitHub、Hugging Faceフォーラムから1,187のバグ関連の投稿とコードスニペットを収集し、分析しました。
より深く分析するために、我々はプログラミング言語やフレームワークとともに、バグが発生したコンポーネントについても研究しました。
また,バグ識別の自動化の可能性についても検討した。
そのため、BugReActというReActエージェントを開発し、データセットのバグを検出し、注釈付けできるかどうかを判断するための適切な外部ツールを備えています。
我々の研究によると、Gemini 2.5 Flashを搭載したBugReActは、バグ特性に注釈を付けることで、ポスト/コードスニペットあたり平均0.01USドルの性能を達成した。
関連論文リスト
- InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - PATCH: Empowering Large Language Model with Programmer-Intent Guidance and Collaborative-Behavior Simulation for Automatic Bug Fixing [34.768989900184636]
バグ修正は、ソフトウェア開発とメンテナンスにおいて重要な意味を持つ。
最近の研究は、ソフトウェアバグを自動的に解決する大規模言語モデル(LLM)の可能性を探ることに大きく貢献している。
論文 参考訳(メタデータ) (2025-01-27T15:43:04Z) - ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - AgentFL: Scaling LLM-based Fault Localization to Project-Level Context [11.147750199280813]
本稿では,ChatGPTに基づくマルチエージェントシステムであるAgentFLについて述べる。
人間の開発者の振る舞いをシミュレートすることで、AgentFLはFLタスクを3段階のプロセスとしてモデル化する。
広く使用されているDefects4J-V1.2.0ベンチマークの評価は、AgentFLがTop-1内の395のバグのうち157をローカライズできることを示している。
論文 参考訳(メタデータ) (2024-03-25T01:58:19Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。