論文の概要: Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery
- arxiv url: http://arxiv.org/abs/2402.01140v1
- Date: Fri, 2 Feb 2024 04:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:50:15.622280
- Title: Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery
- Title(参考訳): ニューラルグランガー因果発見を用いたマイクロサービスの根本原因解析
- Authors: Cheng-Ming Lin, Ching Chang, Wei-Yao Wang, Kuang-Da Wang, Wen-Chih
Peng
- Abstract要約: 本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
- 参考スコア(独自算出の注目度): 12.35924469567586
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, microservices have gained widespread adoption in IT
operations due to their scalability, maintenance, and flexibility. However, it
becomes challenging for site reliability engineers (SREs) to pinpoint the root
cause due to the complex relationships in microservices when facing system
malfunctions. Previous research employed structured learning methods (e.g.,
PC-algorithm) to establish causal relationships and derive root causes from
causal graphs. Nevertheless, they ignored the temporal order of time series
data and failed to leverage the rich information inherent in the temporal
relationships. For instance, in cases where there is a sudden spike in CPU
utilization, it can lead to an increase in latency for other microservices.
However, in this scenario, the anomaly in CPU utilization occurs before the
latency increase, rather than simultaneously. As a result, the PC-algorithm
fails to capture such characteristics. To address these challenges, we propose
RUN, a novel approach for root cause analysis using neural Granger causal
discovery with contrastive learning. RUN enhances the backbone encoder by
integrating contextual information from time series, and leverages a time
series forecasting model to conduct neural Granger causal discovery. In
addition, RUN incorporates Pagerank with a personalization vector to
efficiently recommend the top-k root causes. Extensive experiments conducted on
the synthetic and real-world microservice-based datasets demonstrate that RUN
noticeably outperforms the state-of-the-art root cause analysis methods.
Moreover, we provide an analysis scenario for the sock-shop case to showcase
the practicality and efficacy of RUN in microservice-based applications. Our
code is publicly available at https://github.com/zmlin1998/RUN.
- Abstract(参考訳): 近年、マイクロサービスは、スケーラビリティ、メンテナンス、柔軟性のために、ITオペレーションに広く採用されている。
しかしながら、システム障害に直面しているマイクロサービスの複雑な関係によって、サイト信頼性エンジニア(SRE)が根本原因を特定することは難しくなる。
これまでの研究では、因果関係を確立し、因果グラフから根本原因を導出するために構造化学習法(pc-algorithmなど)を用いた。
それでも、時系列データの時間順を無視し、時間関係に固有の豊富な情報を活用できなかった。
例えば、CPU使用率が急上昇するケースでは、他のマイクロサービスのレイテンシが増加する可能性がある。
しかし、このシナリオでは、同時にではなく、レイテンシが増加する前にCPU利用の異常が発生する。
その結果、PCアルゴリズムはそのような特性を捉えることができない。
これらの課題に対処するため,ニューラルグラガー因果探索と対比学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをパーソナライズベクトルに組み込んで、トップkのルート原因を効率的に推奨する。
合成および実世界のマイクロサービスベースのデータセットで実施された大規模な実験は、RUNが最先端の根本原因分析方法よりも顕著に優れていることを示した。
さらに、マイクロサービスベースのアプリケーションにおけるRUNの実用性と有効性を示すために、ソックショップケースの分析シナリオを提供する。
私たちのコードはhttps://github.com/zmlin1998/RUNで公開されています。
関連論文リスト
- Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - CAnDOIT: Causal Discovery with Observational and Interventional Data from Time-Series [4.008958683836471]
CAnDOITは、観測データと介入データの両方を用いて因果モデルを再構築する因果発見手法である。
因果解析における介入データの利用は、ロボット工学のような現実世界の応用には不可欠である。
CAnDOITのPython実装も開発され、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-10-03T13:57:08Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Disentangled Causal Graph Learning for Online Unsupervised Root Cause
Analysis [49.910053255238566]
ルート原因分析(RCA)は、システム監視データを分析することにより、システム障害/障害の根本原因を特定することができる。
従来の研究は主にオフラインのRCAアルゴリズムの開発に重点を置いており、しばしば手動でRCAプロセスを開始する必要がある。
我々は、RCAプロセスを自動的に起動し、RCAモデルを漸進的に更新できる新しいオンラインRCAフレームワークであるCORALを提案する。
論文 参考訳(メタデータ) (2023-05-18T01:27:48Z) - CUTS+: High-dimensional Causal Discovery from Irregular Time-series [13.84185941100574]
本稿では,Granger-Causality-based causal discovery method CUTSを用いたCUTS+を提案する。
CUTS+は多種多様な不規則サンプリングによる高次元データにおける因果発見性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-10T04:20:36Z) - CUTS: Neural Causal Discovery from Irregular Time-Series Data [27.06531262632836]
時系列データからの因果発見は、機械学習における中心的なタスクである。
本稿では,ニューラルグランガー因果探索アルゴリズムであるCUTSについて述べる。
提案手法は,非理想的な観測を行う実アプリケーションに因果発見を適用するための有望なステップとなる。
論文 参考訳(メタデータ) (2023-02-15T04:16:34Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - An Influence-based Approach for Root Cause Alarm Discovery in Telecom
Networks [7.438302177990416]
実際には、正確で自己調整可能なアラームの根本原因分析は、ネットワークの複雑さと大量のアラームのために大きな課題である。
因果推論とネットワーク埋め込み技術を組み合わせたルート原因警報定位のためのデータ駆動型フレームワークを提案する。
人工データと現実世界の通信データについて評価し,最適なベースラインに対して有意な改善を示した。
論文 参考訳(メタデータ) (2021-05-07T07:41:46Z) - Consistency of mechanistic causal discovery in continuous-time using
Neural ODEs [85.7910042199734]
ダイナミカルシステムの研究において,連続時間における因果的発見を検討する。
本稿では,ニューラルネットワークを用いた因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-06T08:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。