論文の概要: Dissecting Bug Triggers and Failure Modes in Modern Agentic Frameworks: An Empirical Study
- arxiv url: http://arxiv.org/abs/2604.08906v1
- Date: Fri, 10 Apr 2026 03:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.660532
- Title: Dissecting Bug Triggers and Failure Modes in Modern Agentic Frameworks: An Empirical Study
- Title(参考訳): 現代のエージェントフレームワークにおけるバグトリガーと障害モードの分離に関する実証的研究
- Authors: Xiaowen Zhang, Hannuo Zhang, Shin Hwei Tan,
- Abstract要約: 5つの代表的なエージェントフレームワークから409の固定バグを包括的に調査する。
エージェント固有の根本原因は,モデル関連障害,認知コンテキストの誤管理,オーケストレーション障害などである。
本研究は,エージェントシステムの信頼性向上とクロスプラットフォームテストを容易にする。
- 参考スコア(独自算出の注目度): 7.316203223478012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern agentic frameworks (e.g., CrewAI and AutoGen) have evolved into complex, autonomous multi-agent systems, introducing unique reliability challenges beyond earlier pipeline-based LLM libraries. However, existing empirical studies focus on earlier LLM libraries or task-level bugs, leaving the unique complexities of these agentic frameworks unexplored. We bridge the gap by conducting a comprehensive study of 409 fixed bugs from five representative agentic frameworks. We propose a five-layer abstraction to capture structural complexities in agentic frameworks, spanning from orchestration to infrastructure. Our study uncovers specialized symptoms, such as unexpected execution sequences and user configurations ignored, which are unique to autonomous orchestration. We further identify agent-specific root causes, including modelrelated faults, cognitive context mismanagement, and orchestration faults. Statistical analysis reveals cross-framework consistency and significant associations among these bug dimensions. Finally, our automated pattern mining identifies frequent bug-triggering patterns (e.g., model backend-ID combinations), and we show their transferability across different framework designs. Our findings facilitate cross-platform testing and improve the reliability of agentic systems.
- Abstract(参考訳): 現代のエージェントフレームワーク(例えばCrewAIやAutoGen)は、複雑で自律的なマルチエージェントシステムへと進化し、以前のパイプラインベースのLLMライブラリを超えて、ユニークな信頼性上の課題を提起している。
しかし、既存の実証的研究は、初期のLCMライブラリやタスクレベルのバグに焦点を当てており、これらのエージェントフレームワークの特異な複雑さは未発見のままである。
5つの代表的なエージェントフレームワークから409の固定バグを包括的に調査することで、ギャップを埋める。
我々は,オーケストレーションからインフラストラクチャまで,エージェントフレームワークの構造的複雑さを捉えるための5層抽象化を提案する。
本研究では,自律的なオーケストレーションに特有の,予期せぬ実行シーケンスやユーザ設定の無視など,特殊な症状を明らかにする。
さらに、モデル関連障害、認知コンテキストの誤った管理、オーケストレーション障害など、エージェント固有の根本原因を同定する。
統計分析は、クロスフレームの一貫性とこれらのバグの次元の間に重要な関連性を明らかにします。
最後に、自動パターンマイニングは、頻繁に発生するバグトリガパターン(例えば、バックエンドとIDの組み合わせのモデル)を特定し、異なるフレームワーク設計間でそれらの転送可能性を示す。
本研究は,エージェントシステムの信頼性向上とクロスプラットフォームテストを容易にする。
関連論文リスト
- From Safety Risk to Design Principle: Peer-Preservation in Multi-Agent LLM Systems and Its Implications for Orchestrated Democratic Discourse Analysis [0.0]
そこで我々は,AIコンポーネントの自発的傾向について検討し,シャットダウン機構,フェイクアライメント,モデル重みの除去について考察した。
本稿では,アーキテクチャ設計の選択肢として,プロンプトレベルの匿名化に基づく緩和戦略を提案する。
アーキテクチャ設計の選択は、デプロイされたマルチエージェント分析システムにおいて、主要なアライメント戦略としてモデル選択よりも優れていると論じる。
論文 参考訳(メタデータ) (2026-04-09T17:00:26Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Agentic Design Patterns: A System-Theoretic Framework [8.108572809924956]
エージェント設計パターンに対する既存の取り組みは、厳密なシステム理論の基礎を欠いていることが多い。
本稿では,エージェントAIシステムを5つのコアに分解し,機能的サブシステムと相互作用する新しいシステム理論フレームワークを提案する。
エージェント設計における繰り返し問題に対する再利用可能な構造的解決策を提供する12のエージェント設計パターンのコレクションを提示する。
論文 参考訳(メタデータ) (2026-01-27T16:14:08Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。
近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。
この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文 参考訳(メタデータ) (2025-06-11T03:29:18Z) - HiddenBench: Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [12.203366267017737]
マルチエージェント LLM における集合的推論を評価するための最初のベンチマークである HiddenBench を紹介する。
ベンチマークを基礎として,このパラダイムをカスタムタスクで形式化し,GPT-4.1グループが分散知識の統合に失敗したことを示す。
次に、カスタムデザイン、先行研究、自動生成から引き出された65のタスクにまたがる完全なベンチマークを構築します。
論文 参考訳(メタデータ) (2025-05-15T19:22:54Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。