論文の概要: Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps
- arxiv url: http://arxiv.org/abs/2204.11598v1
- Date: Thu, 21 Apr 2022 02:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 08:37:15.052183
- Title: Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps
- Title(参考訳): AIOpsのためのクラウドサービスインシデント調査から学んだマイニングルート
- Authors: Amrita Saha, Steven C.H. Hoi
- Abstract要約: サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
- 参考スコア(独自算出の注目度): 71.12026848664753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Root Cause Analysis (RCA) of any service-disrupting incident is one of the
most critical as well as complex tasks in IT processes, especially for cloud
industry leaders like Salesforce. Typically RCA investigation leverages
data-sources like application error logs or service call traces. However a rich
goldmine of root cause information is also hidden in the natural language
documentation of the past incidents investigations by domain experts. This is
generally termed as Problem Review Board (PRB) Data which constitute a core
component of IT Incident Management. However, owing to the raw unstructured
nature of PRBs, such root cause knowledge is not directly reusable by manual or
automated pipelines for RCA of new incidents. This motivates us to leverage
this widely-available data-source to build an Incident Causation Analysis (ICA)
engine, using SoTA neural NLP techniques to extract targeted information and
construct a structured Causal Knowledge Graph from PRB documents. ICA forms the
backbone of a simple-yet-effective Retrieval based RCA for new incidents,
through an Information Retrieval system to search and rank past incidents and
detect likely root causes from them, given the incident symptom. In this work,
we present ICA and the downstream Incident Search and Retrieval based RCA
pipeline, built at Salesforce, over 2K documented cloud service incident
investigations collected over a few years. We also establish the effectiveness
of ICA and the downstream tasks through various quantitative benchmarks,
qualitative analysis as well as domain expert's validation and real incident
case studies after deployment.
- Abstract(参考訳): サービス破壊インシデントの原因分析(RCA)は、特にSalesforceのようなクラウド業界のリーダにとって、ITプロセスにおける最も重要かつ複雑なタスクのひとつです。
通常、RCA調査はアプリケーションエラーログやサービスコールトレースのようなデータソースを活用する。
しかし、根本原因情報の豊富な金鉱は、過去のドメインの専門家による調査の自然言語文書にも隠されている。
これは一般的に、ITインシデント管理のコアコンポーネントを構成する問題レビューボード(PRB)データと呼ばれる。
しかしながら、RBBの生の非構造性のため、そのような根本原因の知識は、新しいインシデントのRCAのための手動パイプラインや自動化パイプラインによって直接的に再利用されない。
これにより、この広く利用可能なデータソースを活用してインシデント因果解析(ICA)エンジンを構築するためのモチベーションとなり、SoTAニューラルNLP技術を用いてターゲット情報を抽出し、PRB文書から構造化因果知識グラフを構築する。
ICAは新しいインシデントに対して単純なyet- Effective RetrievalベースのRCAのバックボーンを形成し、インシデント症状を考慮して過去のインシデントを検索してランク付けし、それらから起こりうる根本原因を検出する。
本研究では,2万件以上のクラウドサービスインシデント調査を数年前に収集した,ICAと,Salesforceで構築されたダウンストリームインシデント検索とレトリーバルベースのRCAパイプラインについて紹介する。
また、ICAと下流タスクの有効性を、様々な定量的ベンチマーク、質的分析、ドメインエキスパートの検証、デプロイ後の実際のインシデントケーススタディを通じて確立する。
関連論文リスト
- Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - ESRO: Experience Assisted Service Reliability against Outages [2.647000585570866]
私たちは、障害の根本原因と修復を推奨するESROと呼ばれる診断サービスを構築しています。
当社のモデルは,大企業のいくつかのクラウドサービス障害に対して,2年間にわたって評価を行った。
論文 参考訳(メタデータ) (2023-09-13T18:04:52Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - A Pipeline for Business Intelligence and Data-Driven Root Cause Analysis
on Categorical Data [0.0]
本稿では,データからビジネスインサイトを得るための新たなクラスタリングとアソシエーションルールマイニングパイプラインを提案する。
イベントの発生は、生成されたルールの先行者によって説明される。
論文 参考訳(メタデータ) (2022-11-12T18:12:10Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。