論文の概要: BARO: Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection
- arxiv url: http://arxiv.org/abs/2405.09330v1
- Date: Wed, 15 May 2024 13:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 13:26:38.668472
- Title: BARO: Robust Root Cause Analysis for Microservices via Multivariate Bayesian Online Change Point Detection
- Title(参考訳): BARO: 多変量ベイズオンライン変更点検出によるマイクロサービスのロバストルート原因分析
- Authors: Luan Pham, Huong Ha, Hongyu Zhang,
- Abstract要約: 本稿では,異常検出と根本原因分析を統合したエンドツーエンドアプローチを提案する。
BarOは、異常検出と根本原因分析の両方において、最先端のアプローチを一貫して上回る。
- 参考スコア(独自算出の注目度): 11.627235799040388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting failures and identifying their root causes promptly and accurately is crucial for ensuring the availability of microservice systems. A typical failure troubleshooting pipeline for microservices consists of two phases: anomaly detection and root cause analysis. While various existing works on root cause analysis require accurate anomaly detection, there is no guarantee of accurate estimation with anomaly detection techniques. Inaccurate anomaly detection results can significantly affect the root cause localization results. To address this challenge, we propose BARO, an end-to-end approach that integrates anomaly detection and root cause analysis for effectively troubleshooting failures in microservice systems. BARO leverages the Multivariate Bayesian Online Change Point Detection technique to model the dependency within multivariate time-series metrics data, enabling it to detect anomalies more accurately. BARO also incorporates a novel nonparametric statistical hypothesis testing technique for robustly identifying root causes, which is less sensitive to the accuracy of anomaly detection compared to existing works. Our comprehensive experiments conducted on three popular benchmark microservice systems demonstrate that BARO consistently outperforms state-of-the-art approaches in both anomaly detection and root cause analysis.
- Abstract(参考訳): 障害を検出し、その根本原因を迅速かつ正確に特定することは、マイクロサービスシステムの可用性を確保する上で極めて重要です。
マイクロサービスの典型的な障害シューティングパイプラインは、異常検出と根本原因分析という2つのフェーズで構成されている。
根本原因分析に関する様々な研究は正確な異常検出を必要とするが、異常検出技術による正確な推定は保証されていない。
不正確な異常検出結果は根本原因の局在に大きく影響を及ぼす可能性がある。
この課題に対処するため,マイクロサービスシステムの障害を効果的に対処するために,異常検出と根本原因解析を統合したエンドツーエンドアプローチであるBAROを提案する。
BAROは、多変量ベイズオンライン変更点検出技術を利用して、多変量時系列メトリクスデータ内の依存性をモデル化し、より正確に異常を検出する。
BAROはまた、ルート原因を堅牢に同定する新しい非パラメトリック統計的仮説テスト技術も取り入れており、既存の研究と比べて異常検出の精度に敏感ではない。
一般的な3つのベンチマークマイクロサービスシステムで実施した包括的な実験は、BAROが異常検出と根本原因分析の両方において、最先端のアプローチを一貫して上回っていることを示している。
関連論文リスト
- Unsupervised Anomaly Detection Using Diffusion Trend Analysis [48.19821513256158]
本稿では, 劣化度に応じて, 復元傾向の分析により異常を検出する手法を提案する。
提案手法は,産業用異常検出のためのオープンデータセット上で検証される。
論文 参考訳(メタデータ) (2024-07-12T01:50:07Z) - Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - An Evaluation of Anomaly Detection and Diagnosis in Multivariate Time
Series [7.675917669905486]
本稿では,異常検出・診断のための教師なし・半教師付き深層学習手法の体系的・包括的評価について述べる。
我々は、10のモデルと4のスコアリング関数のグリッドを通して、モデルエラーのモデルと後処理を変え、これらの変種を最先端の手法と比較する。
既存の評価指標は、事象を考慮に入れていないか、良い検知器と自明な検出器を区別できないかのどちらかである。
論文 参考訳(メタデータ) (2021-09-23T15:14:24Z) - A Survey on Anomaly Detection for Technical Systems using LSTM Networks [0.0]
異常は、意図されたシステムの動作から逸脱し、部分的または完全なシステム障害と同様に効率が低下する可能性がある。
本稿では,ディープニューラルネットワーク,特に長期記憶ネットワークを用いた最先端異常検出に関する調査を行う。
調査したアプローチは、アプリケーションシナリオ、データ、異常タイプ、およびさらなるメトリクスに基づいて評価される。
論文 参考訳(メタデータ) (2021-05-28T13:24:40Z) - An Explainable Artificial Intelligence Approach for Unsupervised Fault
Detection and Diagnosis in Rotating Machinery [2.055054374525828]
本稿では,回転機械の故障検出と診断のための新しい手法を提案する。
この手法は,特徴抽出,障害検出,障害診断の3つの部分からなる。
提案手法の有効性は,機械的故障の異なる3つのデータセットに示される。
論文 参考訳(メタデータ) (2021-02-23T18:28:18Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - Root Cause Detection Among Anomalous Time Series Using Temporal State
Alignment [0.0]
本稿では,時系列変動のパターンを解析することにより,異常の根本原因を抽出する手法を提案する。
この考え方は、問題が不整合であるが、基底状態の均質なシフトを引き起こすときの効果の伝播を追跡することである。
そこで我々は,Zillows クリックストリームデータにおける異常の根本原因を,観測された変動の集合の中の因果パターンを同定することにより評価した。
論文 参考訳(メタデータ) (2020-01-04T08:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。