論文の概要: BALANCE: Bayesian Linear Attribution for Root Cause Localization
- arxiv url: http://arxiv.org/abs/2301.13572v1
- Date: Tue, 31 Jan 2023 11:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 16:37:43.252530
- Title: BALANCE: Bayesian Linear Attribution for Root Cause Localization
- Title(参考訳): BALANCE: 根の局所化に対するベイジアン線形属性
- Authors: Chaoyu Chen, Hang Yu, Zhichao Lei, Jianguo Li, Shaokang Ren, Tingkai
Zhang, Silin Hu, Jianchao Wang, Wenhui Shi
- Abstract要約: ルート原因分析(RCA)は分散データシステムの保守と運用において必須の役割を果たす。
本稿では、最近開発された説明可能なAI(XAI)のフレームワークをRCAのために活用する可能性を明らかにする。
本稿では,XAI における帰属レンズを通して RCA の問題を定式化する BALANCE を提案する。
- 参考スコア(独自算出の注目度): 19.30952654225615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Root Cause Analysis (RCA) plays an indispensable role in distributed data
system maintenance and operations, as it bridges the gap between fault
detection and system recovery. Existing works mainly study multidimensional
localization or graph-based root cause localization. This paper opens up the
possibilities of exploiting the recently developed framework of explainable AI
(XAI) for the purpose of RCA. In particular, we propose BALANCE (BAyesian
Linear AttributioN for root CausE localization), which formulates the problem
of RCA through the lens of attribution in XAI and seeks to explain the
anomalies in the target KPIs by the behavior of the candidate root causes.
BALANCE consists of three innovative components. First, we propose a Bayesian
multicollinear feature selection (BMFS) model to predict the target KPIs given
the candidate root causes in a forward manner while promoting sparsity and
concurrently paying attention to the correlation between the candidate root
causes. Second, we introduce attribution analysis to compute the attribution
score for each candidate in a backward manner. Third, we merge the estimated
root causes related to each KPI if there are multiple KPIs. We extensively
evaluate the proposed BALANCE method on one synthesis dataset as well as three
real-world RCA tasks, that is, bad SQL localization, container fault
localization, and fault type diagnosis for Exathlon. Results show that BALANCE
outperforms the state-of-the-art (SOTA) methods in terms of accuracy with the
least amount of running time, and achieves at least $6\%$ notably higher
accuracy than SOTA methods for real tasks. BALANCE has been deployed to
production to tackle real-world RCA problems, and the online results further
advocate its usage for real-time diagnosis in distributed data systems.
- Abstract(参考訳): ルート原因解析(RCA)は、障害検出とシステム回復のギャップを埋めるため、分散データシステムの保守と運用において必須の役割を果たす。
既存の研究は主に多次元的局在化やグラフに基づく根源的局在化の研究である。
本稿では、最近開発された説明可能なAI(XAI)フレームワークをRCAのために活用する可能性を明らかにする。
特にBALANCE(Bayesian Linear AttributioN for root CausE Localization)を提案する。これは、XAIにおける帰属レンズを通してRCAの問題を定式化し、対象KPIの異常を候補根原因の挙動によって説明しようとするものである。
BALANCEは3つの革新的なコンポーネントで構成されている。
まず,候補とするKPIを前方に予測するベイズ的マルチコリニア特徴選択(BMFS)モデルを提案する。
第2に,各候補に対する帰属スコアを後向きに計算するために帰属分析を導入する。
第三に、複数のKPIが存在する場合、各KPIに関連する推定根本原因をマージする。
提案手法を1つの合成データセットと3つの実世界のrcaタスク、すなわち、悪いsqlローカライズ、コンテナ障害のローカライズ、exathlonのフォールトタイプ診断において広範囲に評価した。
その結果、BALANCEは、最小ランニング時間での精度で最先端(SOTA)メソッドよりも優れており、実際のタスクにおけるSOTAメソッドよりも少なくとも6\%$高い精度で達成されている。
BALANCEは実世界のRCA問題に対処するために本番環境にデプロイされており、オンラインの結果はさらに、分散データシステムにおけるリアルタイム診断への利用を提唱している。
関連論文リスト
- PORCA: Root Cause Analysis with Partially Observed Data [15.007249208547885]
ルート原因分析(RCA)は、複雑なシステムから因果構造を発見し解析することによって、システム障害の原因を特定することを目的としている。
以前の研究では、部分的な観察の効果を無視するシステムの全観察を暗黙的に仮定していた。
PORCAは、保存されていない共同創設者と保存されていない異質性の両方の下で、信頼性の高い根本原因を探索できる新しいRCAフレームワークである。
論文 参考訳(メタデータ) (2024-07-08T12:31:12Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - Hierarchical Graph Neural Networks for Causal Discovery and Root Cause
Localization [52.72490784720227]
REASONはTopological Causal DiscoveryとPersonal Causal Discoveryで構成されている。
Topological Causal Discoveryコンポーネントは、根本原因を辿るために断層伝播をモデル化することを目的としている。
個々の因果発見コンポーネントは、単一のシステムエンティティの突然の変化パターンのキャプチャに重点を置いている。
論文 参考訳(メタデータ) (2023-02-03T20:17:45Z) - Causal Inference-Based Root Cause Analysis for Online Service Systems
with Intervention Recognition [11.067832313491449]
本稿では,介入認識という新たな因果推論タスクとして根本原因分析問題を定式化する。
我々は、因果推論に基づく新しい教師なし因果推論手法、Causal Inference-based Root Cause Analysis (CIRCA)を提案する。
実世界のデータセットのパフォーマンスは、CIRCAが最高のベースラインメソッドよりも、トップ1レコメンデーションのリコールを25%改善できることを示している。
論文 参考訳(メタデータ) (2022-06-13T01:45:13Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。