論文の概要: CMMD: Cross-Metric Multi-Dimensional Root Cause Analysis
- arxiv url: http://arxiv.org/abs/2203.16280v1
- Date: Wed, 30 Mar 2022 13:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 14:40:56.646985
- Title: CMMD: Cross-Metric Multi-Dimensional Root Cause Analysis
- Title(参考訳): CMMD:クロスメトリック多次元根本原因解析
- Authors: Shifu Yan, Caihua Shan, Wenyi Yang, Bixiong Xu, Dongsheng Li, Lili
Qiu, Jie Tong, Qi Zhang
- Abstract要約: 大規模オンラインサービスでは、重要な指標であるキーパフォーマンス指標(KPI)が定期的に監視され、実行状態をチェックする。
異常値が観測されると、異常の原因を特定するために根本原因分析(RCA)を適用することができる。
本稿では,2つの鍵成分からなる多次元根本原因解析手法CMMDを提案する。
- 参考スコア(独自算出の注目度): 17.755405467437637
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In large-scale online services, crucial metrics, a.k.a., key performance
indicators (KPIs), are monitored periodically to check their running statuses.
Generally, KPIs are aggregated along multiple dimensions and derived by complex
calculations among fundamental metrics from the raw data. Once abnormal KPI
values are observed, root cause analysis (RCA) can be applied to identify the
reasons for anomalies, so that we can troubleshoot quickly. Recently, several
automatic RCA techniques were proposed to localize the related dimensions (or a
combination of dimensions) to explain the anomalies. However, their analyses
are limited to the data on the abnormal metric and ignore the data of other
metrics which may be also related to the anomalies, leading to imprecise or
even incorrect root causes. To this end, we propose a cross-metric
multi-dimensional root cause analysis method, named CMMD, which consists of two
key components: 1) relationship modeling, which utilizes graph neural network
(GNN) to model the unknown complex calculation among metrics and aggregation
function among dimensions from historical data; 2) root cause localization,
which adopts the genetic algorithm to efficiently and effectively dive into the
raw data and localize the abnormal dimension(s) once the KPI anomalies are
detected. Experiments on synthetic datasets, public datasets and online
production environment demonstrate the superiority of our proposed CMMD method
compared with baselines. Currently, CMMD is running as an online service in
Microsoft Azure.
- Abstract(参考訳): 大規模オンラインサービスでは、重要な指標であるキーパフォーマンス指標(KPI)が定期的に監視され、実行状態をチェックする。
一般に、KPIは複数の次元に沿って集約され、生データから基本的なメトリクスの複雑な計算によって導かれる。
異常KPI値が観察されると,根本原因分析(RCA)を用いて異常の原因を同定し,早期にトラブルシュートを行うことができる。
近年,複数の自動RCA手法が提案され,関連する次元(あるいは次元の組み合わせ)を局所化し,異常を説明する。
しかしながら、それらの分析は異常なメトリックのデータに限定され、異常と関連する可能性のある他のメトリックのデータを無視し、不正確または誤った根本原因につながる。
そこで本研究では,2つの主成分からなるクロスメトリック多次元根因解析法であるcmmdを提案する。
1) グラフニューラルネットワーク(GNN)を用いてメトリクス間の未知の複素計算と履歴データからの次元間の集約関数をモデル化する関係モデリング。
2)KPI異常が検出されると,遺伝子アルゴリズムを用いて生データに効率よく効果的に飛び込み,異常次元を局在させる。
合成データセット, 公開データセット, オンライン生産環境に関する実験は, ベースラインよりもCMMD法の方が優れていることを示す。
現在、CMMDはMicrosoft Azureのオンラインサービスとして動いている。
関連論文リスト
- Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - Unraveling the "Anomaly" in Time Series Anomaly Detection: A
Self-supervised Tri-domain Solution [89.16750999704969]
異常ラベルは時系列異常検出において従来の教師付きモデルを妨げる。
自己教師型学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。
自己教師型3領域異常検出器(TriAD)を提案する。
論文 参考訳(メタデータ) (2023-11-19T05:37:18Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - Beyond Sharing: Conflict-Aware Multivariate Time Series Anomaly
Detection [18.796225184893874]
本稿では,衝突を意識した異常検出アルゴリズムCADを紹介する。
その結果,バニラMMoEの粗悪な性能は,MTS定式化の入力出力ミスアライメント設定に起因していることが判明した。
CADは3つの公開データセットの平均F1スコアが0.943であることを示す。
論文 参考訳(メタデータ) (2023-08-17T11:00:01Z) - Generic and Robust Root Cause Localization for Multi-Dimensional Data in
Online Service Systems [22.308016571592105]
多次元データに対する根本原因のローカライズは、オンラインサービスシステムの信頼性を保証するために重要である。
本稿では,多次元データPSqueezeに対する汎用的かつロバストな根本原因ローカライズ手法を提案する。
いくつかの生産システムにおけるケーススタディでは、PSqueezeが現実世界の故障診断に役立つことが示されている。
論文 参考訳(メタデータ) (2023-05-05T07:22:30Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - CSCAD: Correlation Structure-based Collective Anomaly Detection in
Complex System [11.739889613196619]
大規模システムにおける高次元異常検出問題に対する相関構造に基づく集団異常検出モデルを提案する。
本フレームワークでは,変分オートエンコーダを組み合わせたグラフ畳み込みネットワークを用いて,特徴空間の相関とサンプルの再構成不足を共同で活用する。
異常判別ネットワークは、低異常度サンプルを正のサンプルとして、高異常度サンプルを負のサンプルとしてトレーニングすることができる。
論文 参考訳(メタデータ) (2021-05-30T09:28:25Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。