論文の概要: An Empirical Study of Bugs in Modern LLM Agent Frameworks
- arxiv url: http://arxiv.org/abs/2602.21806v1
- Date: Wed, 25 Feb 2026 11:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.812687
- Title: An Empirical Study of Bugs in Modern LLM Agent Frameworks
- Title(参考訳): 現代のLLMエージェントフレームワークにおけるバグの実証的研究
- Authors: Xinxue Zhu, Jiacong Wu, Xiaoyu Zhang, Tianlin Li, Yanzhou Mu, Juan Zhai, Chao Shen, Yang Liu,
- Abstract要約: LLMエージェントは、ワークフローの実行とマルチエージェント調整のためのエージェントフレームワークに依存し、現実世界のアプリケーションで広く採用されている。
我々はCrewAIとLangChainの998件のバグ報告を実証的に調査し,5つのエージェントライフサイクル段階にわたる15の根本原因と7つの観察可能な症状の分類法を構築した。
- 参考スコア(独自算出の注目度): 25.381971782040726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM agents have been widely adopted in real-world applications, relying on agent frameworks for workflow execution and multi-agent coordination. As these systems scale, understanding bugs in the underlying agent frameworks becomes critical. However, existing work mainly focuses on agent-level failures, overlooking framework-level bugs. To address this gap, we conduct an empirical study of 998 bug reports from CrewAI and LangChain, constructing a taxonomy of 15 root causes and 7 observable symptoms across five agent lifecycle stages: 'Agent Initialization','Perception', 'Self-Action', 'Mutual Interaction' and 'Evolution'. Our findings show that agent framework bugs mainly arise from 'API misuse', 'API incompatibility', and 'Documentation Desync', largely concentrated in the 'Self-Action' stage. Symptoms typically appear as 'Functional Error', 'Crash', and 'Build Failure', reflecting disruptions to task progression and control flow.
- Abstract(参考訳): LLMエージェントは、ワークフローの実行とマルチエージェント調整のためのエージェントフレームワークに依存し、現実世界のアプリケーションで広く採用されている。
これらのシステムがスケールするにつれて、基盤となるエージェントフレームワークのバグを理解することが重要になります。
しかしながら、既存の作業は主にフレームワークレベルのバグを見越して、エージェントレベルの障害に焦点を当てています。
このギャップに対処するため、CrewAIとLangChainの998件のバグレポートを実証的に分析し、"Agent Initialization"、"Perception"、"Self-Action"、"Mutual Interaction"、"Evolution"の5つのエージェントライフサイクルステージに15の根本原因と7つの観察可能な症状を分類した。
筆者らは,主に「API誤用」「API不互換性」「文書デシンク」などのエージェントフレームワークのバグが,「自己表現」の段階に集中していることを発見した。
症状は一般的に'Functional Error'、'Crash'、'Build Failure'として現れ、タスクの進行と制御フローの混乱を反映している。
関連論文リスト
- When Agents Fail: A Comprehensive Study of Bugs in LLM Agents with Automated Labeling [3.0882445204950013]
LLMエージェントベースのソフトウェアにおいて、バグタイプ、根本原因、および影響に関する最初の包括的研究を行う。
Stack Overflow、GitHub、Hugging Faceフォーラムから1,187のバグ関連の投稿とコードスニペットを収集し、分析しました。
私たちはBugReActというReActエージェントを開発し、データセットのバグを検出し、注釈付けできるかどうかを判断するための適切な外部ツールを備えています。
論文 参考訳(メタデータ) (2026-01-21T18:13:10Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - AgentRefine: Enhancing Agent Generalization through Refinement Tuning [28.24897427451803]
LLM(Large Language Model)ベースのエージェントは、人間のような複雑なタスクを実行する能力を示した。
オープンソースLLMとGPTシリーズのような商用モデルの間にはまだ大きなギャップがある。
本稿では,命令チューニングによるLLMのエージェント一般化機能の改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-01-03T08:55:19Z) - AEGIS: An Agent-based Framework for General Bug Reproduction from Issue Descriptions [10.686849324750556]
gEneral buG reproductIon Scripts 生成フレームワークは AEGIS という名称で、タスクのための最初のエージェントベースのフレームワークである。
AEGISは、Agentlessの相対的な解決率を12.5%向上させることができる。
論文 参考訳(メタデータ) (2024-11-27T03:16:47Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - A Unified Debugging Approach via LLM-Based Multi-Agent Synergy [39.11825182386288]
FixAgentはマルチエージェントのシナジーによる統合デバッグのためのエンドツーエンドフレームワークである。
1.25$times$ 2.56$times$レポレベルのベンチマークであるDefects4Jのバグを修正した。
論文 参考訳(メタデータ) (2024-04-26T04:55:35Z) - On the Use and Misuse of Absorbing States in Multi-agent Reinforcement
Learning [55.95253619768565]
現在のMARLアルゴリズムは、実験を通してグループ内のエージェントの数が固定されていると仮定している。
多くの実践的な問題において、エージェントはチームメイトの前に終了する可能性がある。
本稿では,吸収状態を持つ完全連結層ではなく,注意を用いた既存の最先端MARLアルゴリズムのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-10T23:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。