論文の概要: Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes
- arxiv url: http://arxiv.org/abs/2603.06847v1
- Date: Fri, 06 Mar 2026 20:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.19814
- Title: Characterizing Faults in Agentic AI: A Taxonomy of Types, Symptoms, and Root Causes
- Title(参考訳): エージェントAIにおける障害の特徴:タイプ・症状・根本原因の分類
- Authors: Mehil B Shah, Mohammad Mehdi Morovati, Mohammad Masudur Rahman, Foutse Khomh,
- Abstract要約: エージェントAIシステムは、大きな言語モデル(LLM)推論と外部呼び出しツール、長期タスク実行を組み合わせる。
現実世界のエージェントAIシステムにおいて、障害がどのように発生し、現れ、伝播するかに関する経験的理解は限られている。
- 参考スコア(独自算出の注目度): 6.568786173861302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems combine large language model (LLM) reasoning with external tool invocation and long-horizon task execution. Although these systems are increasingly deployed in practice, their architectural composition introduces reliability challenges that differ from those in traditional software systems and standalone LLM applications. However, there is limited empirical understanding of how faults originate, manifest, and propagate in real-world agentic AI systems. To address this gap, we conduct a large-scale empirical study of faults in agentic AI systems. We collect 13,602 issues and pull requests from 40 open-source agentic AI repositories and apply stratified sampling to select 385 faults for in-depth qualitative analysis. Using grounded theory, we derive taxonomies of fault types, observable symptoms, and root causes. We further apply Apriori-based association rule mining to identify statistically significant relationships among faults, symptoms, and root causes, revealing common fault propagation patterns. Finally, we validate the taxonomy through a developer study with 145 practitioners. Our analysis identifies 37 distinct fault types grouped into 13 higher-level fault categories, along with 13 classes of observable symptoms and 12 categories of root causes. The results show that many failures originate from mismatches between probabilistically generated artifacts and deterministic interface constraints, frequently involving dependency integration, data validation, and runtime environment handling. Association rule mining further reveals recurring propagation pathways across system components, such as token management faults leading to authentication failures and datetime handling defects causing scheduling anomalies. Practitioners rated the taxonomy as representative of real-world failures (mean = 3.97/5), and 83.8% reported that it covered faults they had encountered.
- Abstract(参考訳): エージェントAIシステムは、大きな言語モデル(LLM)推論と外部ツールの実行と長期タスク実行を組み合わせる。
これらのシステムの実装はますます進んでいるが、そのアーキテクチャ構成は、従来のソフトウェアシステムやスタンドアロンのLLMアプリケーションとは異なる信頼性上の課題をもたらす。
しかし、現実のエージェントAIシステムにおいて、障害がどのように発生し、現れ、伝播するかに関する経験的理解は限られている。
このギャップに対処するため、エージェントAIシステムの欠陥を大規模に調査する。
我々は、40のオープンソースエージェントAIリポジトリから13,602の課題とプルリクエストを収集し、詳細な定性分析のために385の障害を選択するために階層化サンプリングを適用します。
基礎理論を用いて, 断層タイプ, 観測可能な症状, 根本原因の分類学を導出する。
さらに,Aprioriを基盤としたアソシエーション・ルール・マイニングを用いて,断層,症状,根本原因の統計的に重要な関係を同定し,共通の断層伝播パターンを明らかにする。
最後に,145名の実践者との開発者スタディを通じて分類を検証した。
本分析では,13種類の観測可能な症状と12種類の根本原因とともに,13の高レベル断層カテゴリに分類した37の断層タイプを同定した。
その結果、多くの障害は確率的に生成されたアーティファクトと決定論的インターフェースの制約のミスマッチから発生し、しばしば依存性統合、データ検証、ランタイム環境の処理に関係していることがわかった。
また、アソシエーションルールマイニングでは、トークン管理障害やスケジュール異常の原因となる日時処理欠陥など、システムコンポーネント間の繰り返し伝搬経路が明らかにされている。
実践者は、この分類を現実世界の失敗(平均は3.97/5)の代表とみなし、83.8%は、彼らが遭遇した欠陥をカバーしていると報告した。
関連論文リスト
- MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems [38.44649280816596]
マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
論文 参考訳(メタデータ) (2026-02-23T13:47:43Z) - Diagnosing Failure Root Causes in Platform-Orchestrated Agentic Systems: Dataset, Taxonomy, and Benchmark [23.342903884925576]
本稿では,プラットフォーム構築型エージェントシステムの根本原因同定について述べる。
我々は、10のエージェントシステムから307の障害ログを含むデータセットAgentFailを構築し、それぞれが障害を根本原因にリンクする詳細なアノテーションを持つ。
障害の原因を特徴付ける分類法を開発し、異なるプラットフォームやタスク領域にまたがる分布を解析する。
論文 参考訳(メタデータ) (2025-09-28T08:30:03Z) - Why Attention Fails: A Taxonomy of Faults in Attention-Based Neural Networks [3.261740322943355]
注意型ニューラルネットワーク(ABNN)における障害の包括的実証的研究について紹介する。
私たちの研究は、GitHub、Hugging Face、Stack Overflowを含む10のフレームワークにわたる96のプロジェクトから収集された555の現実世界の障害の体系的な分析に基づいています。
以上の結果から,ABNNの欠陥の半数以上が注目アーキテクチャに特有のメカニズムから生じていることが示唆された。
論文 参考訳(メタデータ) (2025-08-06T23:20:18Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems [35.310727641258715]
本稿では,インシデントチケットの自動プロファイリング手法であるFaultProfITを提案する。
階層型指導型コントラスト学習を利用して、階層型インシデントエンコーダをトレーニングし、インシデント表現を強化したフォールトパターンを予測する。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
論文 参考訳(メタデータ) (2024-02-27T15:14:19Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Progressing from Anomaly Detection to Automated Log Labeling and
Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。
この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文 参考訳(メタデータ) (2023-12-22T15:04:20Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。