論文の概要: Empowering Practical Root Cause Analysis by Large Language Models for
Cloud Incidents
- arxiv url: http://arxiv.org/abs/2305.15778v3
- Date: Wed, 31 May 2023 09:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:47:48.648407
- Title: Empowering Practical Root Cause Analysis by Large Language Models for
Cloud Incidents
- Title(参考訳): クラウドインシデントのための大規模言語モデルによる実用根本原因解析の強化
- Authors: Yinfang Chen, Huaibing Xie, Minghua Ma, Yu Kang, Xin Gao, Liu Shi,
Yunjie Cao, Xuedong Gao, Hao Fan, Ming Wen, Jun Zeng, Supriyo Ghosh, Xuchao
Zhang, Chaoyun Zhang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
- Abstract要約: 本稿では,クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントを、アラートタイプに基づいて対応するハンドラにマッチさせ、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
企業XのServiceXから1年分のインシデントからなる実世界のデータセットを用いてRCACopilotを評価する。
- 参考スコア(独自算出の注目度): 50.67936867161151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the reliability and availability of cloud services necessitates
efficient root cause analysis (RCA) for cloud incidents. Traditional RCA
methods, which rely on manual investigations of data sources such as logs and
traces, are often laborious, error-prone, and challenging for on-call
engineers. In this paper, we introduce RCACopilot, an innovative On-call system
empowered by the Large Language Model for automating RCA of cloud incidents.
RCACopilot matches incoming incidents to corresponding handlers based on their
alert types, aggregates the critical runtime diagnostic information, predicts
the incident's root cause category, and provides an explanatory narrative. We
evaluate RCACopilot using a real-world dataset consisting of a year's worth of
incidents from serviceX in companyX. Our evaluation demonstrates that
RCACopilot achieves RCA accuracy up to 0.766. Furthermore, the diagnostic
information collection component of RCACopilot has been successfully in use at
companyX for over four years.
- Abstract(参考訳): クラウドサービスの信頼性と可用性を確保するには、クラウドインシデントに対する効率的な根本原因分析(RCA)が必要である。
ログやトレースなどのデータソースを手動で調査する従来のRCAメソッドは、しばしば手間がかかり、エラーが発生し、オンコールエンジニアにとって難しい。
本稿では,クラウドインシデントのRCAを自動化するための大規模言語モデルによる革新的なオンコールシステムであるRCACopilotを紹介する。
rcacopilotは、受信したインシデントをアラートタイプに基づいて対応するハンドラにマッチさせ、重要なランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
企業XのServiceXから1年分のインシデントからなる実世界のデータセットを用いてRCACopilotを評価する。
評価の結果,RCACopilotの精度は0.766。
さらに、RCACopilotの診断情報収集コンポーネントは、CountXで4年以上にわたって使用されてきた。
関連論文リスト
- Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on
Large-Scale Microservice Systems [44.53009495726297]
マイクロサービスシステムの信頼性を確保するために、ルート原因分析(RCA)がますます重要になっている。
本稿では,大規模マイクロサービスシステムの課題に対処するエンドツーエンドのRCAフレームワークであるTraceDiagを提案する。
論文 参考訳(メタデータ) (2023-10-28T15:49:00Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。