論文の概要: Exploring LLM-based Agents for Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2403.04123v1
- Date: Thu, 7 Mar 2024 00:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:31:33.642538
- Title: Exploring LLM-based Agents for Root Cause Analysis
- Title(参考訳): 根本原因解析のためのLCMエージェントの探索
- Authors: Devjeet Roy, Xuchao Zhang, Rashi Bhave, Chetan Bansal, Pedro
Las-Casas, Rodrigo Fonseca, Saravan Rajmohan
- Abstract要約: ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
- 参考スコア(独自算出の注目度): 17.053079105858497
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The growing complexity of cloud based software systems has resulted in
incident management becoming an integral part of the software development
lifecycle. Root cause analysis (RCA), a critical part of the incident
management process, is a demanding task for on-call engineers, requiring deep
domain knowledge and extensive experience with a team's specific services.
Automation of RCA can result in significant savings of time, and ease the
burden of incident management on on-call engineers. Recently, researchers have
utilized Large Language Models (LLMs) to perform RCA, and have demonstrated
promising results. However, these approaches are not able to dynamically
collect additional diagnostic information such as incident related logs,
metrics or databases, severely restricting their ability to diagnose root
causes. In this work, we explore the use of LLM based agents for RCA to address
this limitation. We present a thorough empirical evaluation of a ReAct agent
equipped with retrieval tools, on an out-of-distribution dataset of production
incidents collected at Microsoft. Results show that ReAct performs
competitively with strong retrieval and reasoning baselines, but with highly
increased factual accuracy. We then extend this evaluation by incorporating
discussions associated with incident reports as additional inputs for the
models, which surprisingly does not yield significant performance improvements.
Lastly, we conduct a case study with a team at Microsoft to equip the ReAct
agent with tools that give it access to external diagnostic services that are
used by the team for manual RCA. Our results show how agents can overcome the
limitations of prior work, and practical considerations for implementing such a
system in practice.
- Abstract(参考訳): クラウドベースのソフトウェアシステムの複雑さが増大し、インシデント管理がソフトウェア開発ライフサイクルの不可欠な部分となった。
インシデント管理プロセスの重要な部分であるルート原因分析(rca)は、オンコールエンジニアにとって要求の厳しいタスクであり、チームの特定のサービスに関する深いドメイン知識と豊富な経験を必要とする。
RCAの自動化は、時間を大幅に節約し、オンコールエンジニアのインシデント管理の負担を軽減する。
近年、研究者は大規模言語モデル(LLM)を用いてRCAを行い、有望な結果を示した。
しかしながら、これらのアプローチはインシデント関連ログやメトリクス、データベースなどの追加の診断情報を動的に収集することができず、根本原因の診断能力を著しく制限している。
本研究では,この制限に対処するため,LCMをベースとしたRCAエージェントの利用について検討する。
本稿では,microsoft が収集した製品インシデントに関するアウトオブディストリビューションデータセット上に,検索ツールを備えた react エージェントを徹底的に評価する。
その結果、ReActは強力な検索と推論ベースラインと競合するが、事実精度は高い。
次に,モデルに対する追加入力としてインシデントレポートに関する議論を取り込むことで,この評価を拡張した。
最後に、Microsoftのチームとケーススタディを行い、手動RCAに使用される外部診断サービスへのアクセスを可能にするツールをReActエージェントに装備する。
以上の結果から,エージェントが事前作業の限界を克服できることを示すとともに,実際にシステムを実装するための実践的考察を行った。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Anwendung von Causal-Discovery-Algorithmen zur Root-Cause-Analyse in der Fahrzeugmontage [0.2995925627097048]
根本原因分析(英: Root Cause Analysis, RCA)は、問題の因果関係を系統的に調査し、同定することを目的とした品質管理手法である。
現代の生産プロセスでは、大量のデータが収集される。
この出版物は、主要な自動車メーカーの組み立てデータに対する因果発見アルゴリズム(CDA)の適用を実証している。
論文 参考訳(メタデータ) (2024-07-23T11:22:33Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。