論文の概要: Stalled, Biased, and Confused: Uncovering Reasoning Failures in LLMs for Cloud-Based Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2601.22208v1
- Date: Thu, 29 Jan 2026 18:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.001758
- Title: Stalled, Biased, and Confused: Uncovering Reasoning Failures in LLMs for Cloud-Based Root Cause Analysis
- Title(参考訳): 安定, バイアス, 混乱: クラウドベース根本原因解析のためのLLMにおける推論障害の発見
- Authors: Evelien Riddell, James Riddell, Gengyi Sun, Michał Antkiewicz, Krzysztof Czarnecki,
- Abstract要約: LLMの推論動作を分離する実験的な評価手法を提案する。
我々は16の共通RCA推論失敗の分類をラベル付きで作成し、アノテーションにLLM-as-a-Judgeを使用する。
- 参考スコア(独自算出の注目度): 5.532586951580959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Root cause analysis (RCA) is essential for diagnosing failures within complex software systems to ensure system reliability. The highly distributed and interdependent nature of modern cloud-based systems often complicates RCA efforts, particularly for multi-hop fault propagation, where symptoms appear far from their true causes. Recent advancements in Large Language Models (LLMs) present new opportunities to enhance automated RCA. However, their practical value for RCA depends on the fidelity of reasoning and decision-making. Existing work relies on historical incident corpora, operates directly on high-volume telemetry beyond current LLM capacity, or embeds reasoning inside complex multi-agent pipelines -- conditions that obscure whether failures arise from reasoning itself or from peripheral design choices. We present a focused empirical evaluation that isolates an LLM's reasoning behavior. We design a controlled experimental framework that foregrounds the LLM by using a simplified experimental setting. We evaluate six LLMs under two agentic workflows (ReAct and Plan-and-Execute) and a non-agentic baseline on two real-world case studies (GAIA and OpenRCA). In total, we executed 48,000 simulated failure scenarios, totaling 228 days of execution time. We measure both root-cause accuracy and the quality of intermediate reasoning traces. We produce a labeled taxonomy of 16 common RCA reasoning failures and use an LLM-as-a-Judge for annotation. Our results clarify where current open-source LLMs succeed and fail in multi-hop RCA, quantify sensitivity to input data modalities, and identify reasoning failures that predict final correctness. Together, these contributions provide transparent and reproducible empirical results and a failure taxonomy to guide future work on reasoning-driven system diagnosis.
- Abstract(参考訳): ルート原因分析(RCA)は、システムの信頼性を確保するために複雑なソフトウェアシステム内の障害の診断に不可欠である。
現代のクラウドベースシステムの高度に分散した相互依存の性質は、RCAの取り組みを複雑にすることが多い。
大規模言語モデル(LLM)の最近の進歩は、自動化RCAを強化する新たな機会を提供する。
しかし、RCAの実践的価値は、推論と意思決定の忠実さに依存している。
既存の作業は、過去のインシデントコーパスに依存しており、現在のLLM容量を超える大量のテレメトリを直接運用したり、複雑なマルチエージェントパイプライン内に推論を組み込んでいます。
LLMの推論動作を分離する実験的な評価手法を提案する。
我々は, 簡易な実験環境を用いて, LLMの前提となる制御された実験フレームワークを設計する。
2つのエージェントワークフロー(ReActとPlan-and-Execute)と2つの現実世界ケーススタディ(GAIAとOpenRCA)の非エージェントベースライン(非エージェントベースライン)に基づいて6つのLSMを評価した。
合計48,000のシミュレートされた障害シナリオを実行し、合計228日間の実行を実行しました。
我々は根本原因の精度と中間的推論トレースの品質を計測する。
我々は16の共通RCA推論失敗の分類をラベル付きで作成し、アノテーションにLLM-as-a-Judgeを使用する。
この結果から,マルチホップRCAにおいて,現在のLLMが成功・失敗する状況を明らかにし,入力データのモダリティに対する感度を定量化し,最終的な正当性を予測する推論失敗を同定した。
これらのコントリビューションは、透過的で再現可能な実験結果と失敗分類を提供し、推論駆動型システム診断の今後の研究を導く。
関連論文リスト
- Hypothesize-Then-Verify: Speculative Root Cause Analysis for Microservices with Pathwise Parallelism [19.31110304702373]
SpecRCAは、thithypothesize-then-verifyパラダイムを採用した投機的根本原因分析フレームワークである。
AIOps 2022に関する予備的な実験では、既存のアプローチよりも精度と効率が優れていることが示されている。
論文 参考訳(メタデータ) (2026-01-06T05:58:25Z) - Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - GALA: Can Graph-Augmented Large Language Model Agentic Workflows Elevate Root Cause Analysis? [9.394057684388027]
本稿では,マイクロサービスシステムにおける根本原因分析の新しいフレームワークであるGALAを紹介する。
GALAはオープンソースのベンチマークで評価され、最先端のメソッドよりも大幅に改善されている。
GALAは自動故障診断と実用的なインシデント解決のギャップを埋めることを示す。
論文 参考訳(メタデータ) (2025-08-17T19:12:05Z) - The Multi-Agent Fault Localization System Based on Monte Carlo Tree Search Approach [2.4898626838193647]
大規模言語モデル(LLM)は、インシデントを素早く見つけてリカバリするための新しいパスを提供する。
本手法は根本原因の局在精度を49.29%から128.35%向上させる。
論文 参考訳(メタデータ) (2025-07-30T16:03:21Z) - Reasoning Language Models for Root Cause Analysis in 5G Wireless Networks [10.074110713679739]
モバイルネットワークにおけるルート原因分析(RCA)は、解釈可能性、ドメインの専門知識、因果推論を必要とするため、依然として困難な課題である。
RCAにLarge Language Models(LLM)を利用する軽量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-29T16:21:42Z) - LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities [21.42711537107199]
我々は,Large Language Models (LLMs) が意思決定シナリオにおいてサブ最適に機能する理由を考察する。
自己生成型CoT論理の強化学習(Reinforcement Learning, RL)による微調整によるこれらの欠点の緩和を提案する。
論文 参考訳(メタデータ) (2025-04-22T17:57:14Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。