論文の概要: Generic and Robust Root Cause Localization for Multi-Dimensional Data in
Online Service Systems
- arxiv url: http://arxiv.org/abs/2305.03331v1
- Date: Fri, 5 May 2023 07:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 14:59:10.959694
- Title: Generic and Robust Root Cause Localization for Multi-Dimensional Data in
Online Service Systems
- Title(参考訳): オンラインサービスシステムにおける汎用ルートとロバストルートの多次元データの局所化
- Authors: Zeyan Li, Junjie Chen, Yihao Chen, Chengyang Luo, Yiwei Zhao, Yongqian
Sun, Kaixin Sui, Xiping Wang, Dapeng Liu, Xing Jin, Qi Wang, Dan Pei
- Abstract要約: 多次元データに対する根本原因のローカライズは、オンラインサービスシステムの信頼性を保証するために重要である。
本稿では,多次元データPSqueezeに対する汎用的かつロバストな根本原因ローカライズ手法を提案する。
いくつかの生産システムにおけるケーススタディでは、PSqueezeが現実世界の故障診断に役立つことが示されている。
- 参考スコア(独自算出の注目度): 22.308016571592105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Localizing root causes for multi-dimensional data is critical to ensure
online service systems' reliability. When a fault occurs, only the measure
values within specific attribute combinations are abnormal. Such attribute
combinations are substantial clues to the underlying root causes and thus are
called root causes of multidimensional data. This paper proposes a generic and
robust root cause localization approach for multi-dimensional data, PSqueeze.
We propose a generic property of root cause for multi-dimensional data,
generalized ripple effect (GRE). Based on it, we propose a novel probabilistic
cluster method and a robust heuristic search method. Moreover, we identify the
importance of determining external root causes and propose an effective method
for the first time in literature. Our experiments on two real-world datasets
with 5400 faults show that the F1-score of PSqueeze outperforms baselines by
32.89%, while the localization time is around 10 seconds across all cases. The
F1-score in determining external root causes of PSqueeze achieves 0.90.
Furthermore, case studies in several production systems demonstrate that
PSqueeze is helpful to fault diagnosis in the real world.
- Abstract(参考訳): 多次元データに対する根本原因のローカライズは、オンラインサービスシステムの信頼性を確保するために重要である。
障害が発生した場合、特定の属性の組み合わせ内の測定値のみが異常となる。
このような属性の組み合わせは根本原因の重要な手がかりであり、したがって多次元データの根本原因と呼ばれる。
本稿では多次元データPSqueezeに対する汎用的かつロバストなルート原因ローカライズ手法を提案する。
本稿では,多次元データ,一般化リップル効果(GRE)に対する根本原因の一般性を提案する。
そこで本研究では,新しい確率クラスタ法とロバストなヒューリスティック探索法を提案する。
また,外根原因の決定の重要性を明らかにし,文献に初めて有効な方法を提案する。
5400の故障を伴う2つの実世界のデータセットに対する実験の結果、PSqueezeのF1スコアはベースラインを32.89%上回り、ローカライゼーション時間は全ケースで約10秒である。
psqueeze の外部根原因を決定する f1-score は 0.90 に達する。
さらに、いくつかの生産システムにおけるケーススタディでは、PSqueezeが現実世界の故障診断に役立つことが示されている。
関連論文リスト
- Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Root Cause Explanation of Outliers under Noisy Mechanisms [50.59446568076628]
因果過程は、しばしばグラフとしてモデル化され、エンティティはノードであり、パス/インターコネクションはエッジである。
既存の作業は、生成プロセスにおけるノードの寄与のみを考慮している。
根本原因を特定する際,各メカニズムの個々のエッジとノードについて検討する。
論文 参考訳(メタデータ) (2023-12-19T03:24:26Z) - Hierarchical Graph Neural Networks for Causal Discovery and Root Cause
Localization [52.72490784720227]
REASONはTopological Causal DiscoveryとPersonal Causal Discoveryで構成されている。
Topological Causal Discoveryコンポーネントは、根本原因を辿るために断層伝播をモデル化することを目的としている。
個々の因果発見コンポーネントは、単一のシステムエンティティの突然の変化パターンのキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2023-02-03T20:17:45Z) - BALANCE: Bayesian Linear Attribution for Root Cause Localization [19.30952654225615]
ルート原因分析(RCA)は分散データシステムの保守と運用において必須の役割を果たす。
本稿では、最近開発された説明可能なAI(XAI)のフレームワークをRCAのために活用する可能性を明らかにする。
本稿では,XAI における帰属レンズを通して RCA の問題を定式化する BALANCE を提案する。
論文 参考訳(メタデータ) (2023-01-31T11:49:26Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - RiskLoc: Localization of Multi-dimensional Root Causes by Weighted Risk [1.2691047660244335]
大規模ソフトウェアシステムの失敗と異常は避けられない出来事である。
オペレータは、迅速な修理を容易にするために、その位置を迅速かつ正確に特定する必要がある。
本稿では,多次元根本原因局所化問題の解法としてリスクロックを提案する。
論文 参考訳(メタデータ) (2022-05-20T07:43:18Z) - CMMD: Cross-Metric Multi-Dimensional Root Cause Analysis [17.755405467437637]
大規模オンラインサービスでは、重要な指標であるキーパフォーマンス指標(KPI)が定期的に監視され、実行状態をチェックする。
異常値が観測されると、異常の原因を特定するために根本原因分析(RCA)を適用することができる。
本稿では,2つの鍵成分からなる多次元根本原因解析手法CMMDを提案する。
論文 参考訳(メタデータ) (2022-03-30T13:17:19Z) - An Influence-based Approach for Root Cause Alarm Discovery in Telecom
Networks [7.438302177990416]
実際には、正確で自己調整可能なアラームの根本原因分析は、ネットワークの複雑さと大量のアラームのために大きな課題である。
因果推論とネットワーク埋め込み技術を組み合わせたルート原因警報定位のためのデータ駆動型フレームワークを提案する。
人工データと現実世界の通信データについて評価し,最適なベースラインに対して有意な改善を示した。
論文 参考訳(メタデータ) (2021-05-07T07:41:46Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。