Fugu-MT 論文翻訳(概要): Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

論文の概要: Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?

arxiv url: http://arxiv.org/abs/2602.09937v1
Date: Tue, 10 Feb 2026 16:14:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-11 20:17:43.677827
Title: Why Do AI Agents Systematically Fail at Cloud Root Cause Analysis?
Title（参考訳）: なぜAIエージェントはクラウドルートの原因分析にシステム的に失敗するのか?
Authors: Taeyoon Kim, Woohyeok Park, Hoyeong Yun, Kyungyong Lee,
Abstract要約: 大規模なクラウドシステムの障害は、かなりの財政的損失をもたらします。大規模言語モデル(LLM)エージェントを活用した根本原因分析(RCA)の自動化本稿では,LCMをベースとしたRCAエージェントのプロセスレベルの故障解析について述べる。
参考スコア（独自算出の注目度）: 1.0966260566122241
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Failures in large-scale cloud systems incur substantial financial losses, making automated Root Cause Analysis (RCA) essential for operational stability. Recent efforts leverage Large Language Model (LLM) agents to automate this task, yet existing systems exhibit low detection accuracy even with capable models, and current evaluation frameworks assess only final answer correctness without revealing why the agent's reasoning failed. This paper presents a process level failure analysis of LLM-based RCA agents. We execute the full OpenRCA benchmark across five LLM models, producing 1,675 agent runs, and classify observed failures into 12 pitfall types across intra-agent reasoning, inter-agent communication, and agent-environment interaction. Our analysis reveals that the most prevalent pitfalls, notably hallucinated data interpretation and incomplete exploration, persist across all models regardless of capability tier, indicating that these failures originate from the shared agent architecture rather than from individual model limitations. Controlled mitigation experiments further show that prompt engineering alone cannot resolve the dominant pitfalls, whereas enriching the inter-agent communication protocol reduces communication-related failures by up to 15 percentage points. The pitfall taxonomy and diagnostic methodology developed in this work provide a foundation for designing more reliable autonomous agents for cloud RCA.
Abstract（参考訳）: 大規模クラウドシステムの障害は大きな損失をもたらし、自動ルート原因分析(RCA)は運用上の安定性に不可欠である。近年の取り組みでは,Large Language Model (LLM) エージェントをこのタスクの自動化に利用しているが,既存のシステムは有能なモデルでも検出精度が低い。本稿では,LCMをベースとしたRCAエージェントのプロセスレベルの故障解析について述べる。我々は,5つのLLMモデルに対して完全なOpenRCAベンチマークを実行し,1,675個のエージェント実行を生成し,観察された障害をエージェント内推論,エージェント間通信,エージェント環境相互作用の12種類の落とし穴タイプに分類する。我々の分析によると、最も一般的な落とし穴、特にハロゲン化データ解釈と不完全探索は、能力階層に関わらず全てのモデルにわたって持続しており、これらの失敗は個々のモデル制限ではなく、共有エージェントアーキテクチャに由来することを示している。制御された緩和実験は、エンジニアリングだけでは支配的な落とし穴を解決できない一方で、エージェント間通信プロトコルを充実させることで、通信関連の障害を最大15パーセント削減できることを示している。本研究で開発された落とし穴分類と診断手法は、クラウドRCAのためのより信頼性の高い自律エージェントを設計するための基盤となる。

関連論文リスト

Stalled, Biased, and Confused: Uncovering Reasoning Failures in LLMs for Cloud-Based Root Cause Analysis [5.532586951580959]
LLMの推論動作を分離する実験的な評価手法を提案する。我々は16の共通RCA推論失敗の分類をラベル付きで作成し、アノテーションにLLM-as-a-Judgeを使用する。
論文参考訳（メタデータ） (2026-01-29T18:23:26Z)
The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。 Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文参考訳（メタデータ） (2026-01-19T11:45:39Z)
PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。 PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文参考訳（メタデータ） (2025-11-04T21:48:11Z)
Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文参考訳（メタデータ） (2025-10-16T05:35:37Z)
Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B [1.036334370262262]
本稿では,20ビリオンパラメータのオープンソースモデルであるGPT-OSS-20Bの比較レッドチーム化分析を行う。評価の結果,モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いが明らかになった。エージェントレベルの反復攻撃は、モデルレベルで完全に失敗する目標を妥協することに成功した。
論文参考訳（メタデータ） (2025-09-21T22:18:34Z)
Exploring Autonomous Agents: A Closer Look at Why They Fail When Completing Tasks [8.218266805768687]
我々は、自律エージェントを厳格に評価するために設計された34のプログラム可能なタスクのベンチマークを示す。 LLMバックボーンと組み合わせた3つの人気のあるオープンソースエージェントフレームワークを評価し,タスク完了率約50%を観察した。我々は,障害の原因を3段階に分類し,計画上のエラー,タスク実行の問題,誤った応答生成を強調する。
論文参考訳（メタデータ） (2025-08-18T17:55:22Z)
Risk Analysis Techniques for Governed LLM-based Multi-Agent Systems [0.0]
本稿では,マルチエージェントAIシステムにおけるリスク識別と分析の初期段階について述べる。信頼性障害のカスケード,エージェント間コミュニケーション障害,モノカルチャー崩壊,適合性バイアス,心の欠陥理論,混合モチベーションダイナミクスの6つの重要な障害モードについて検討した。
論文参考訳（メタデータ） (2025-08-06T06:06:57Z)
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文参考訳（メタデータ） (2025-04-30T23:09:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。