論文の概要: CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms
- arxiv url: http://arxiv.org/abs/2111.03753v1
- Date: Fri, 5 Nov 2021 23:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 17:53:53.151063
- Title: CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms
- Title(参考訳): CloudRCA: クラウドコンピューティングプラットフォームのための根本原因分析フレームワーク
- Authors: Yingying Zhang, Zhengxiong Guan, Huajie Qian, Leili Xu, Hengbo Liu,
Qingsong Wen, Liang Sun, Junwei Jiang, Lunting Fan, Min Ke
- Abstract要約: CloudRCAと呼ばれる根本原因分析フレームワークを提案する。
キーパフォーマンス指標(KPI)、ログ、トポロジなどの異種マルチソースデータを使用し、重要な特徴を抽出する。
f1スコアの既存のアプローチを、さまざまなクラウドシステムで一貫して上回ります。
- 参考スコア(独自算出の注目度): 10.385807432472854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As business of Alibaba expands across the world among various industries,
higher standards are imposed on the service quality and reliability of big data
cloud computing platforms which constitute the infrastructure of Alibaba Cloud.
However, root cause analysis in these platforms is non-trivial due to the
complicated system architecture. In this paper, we propose a root cause
analysis framework called CloudRCA which makes use of heterogeneous
multi-source data including Key Performance Indicators (KPIs), logs, as well as
topology, and extracts important features via state-of-the-art anomaly
detection and log analysis techniques. The engineered features are then
utilized in a Knowledge-informed Hierarchical Bayesian Network (KHBN) model to
infer root causes with high accuracy and efficiency. Ablation study and
comprehensive experimental comparisons demonstrate that, compared to existing
frameworks, CloudRCA 1) consistently outperforms existing approaches in
f1-score across different cloud systems; 2) can handle novel types of root
causes thanks to the hierarchical structure of KHBN; 3) performs more robustly
with respect to algorithmic configurations; and 4) scales more favorably in the
data and feature sizes. Experiments also show that a cross-platform transfer
learning mechanism can be adopted to further improve the accuracy by more than
10\%. CloudRCA has been integrated into the diagnosis system of Alibaba Cloud
and employed in three typical cloud computing platforms including MaxCompute,
Realtime Compute and Hologres. It saves Site Reliability Engineers (SREs) more
than $20\%$ in the time spent on resolving failures in the past twelve months
and improves service reliability significantly.
- Abstract(参考訳): Alibabaのビジネスが世界中の業界で拡大するにつれ、Alibaba Cloudのインフラストラクチャを構成するビッグデータクラウドコンピューティングプラットフォームのサービス品質と信頼性に、より高い標準が課されている。
しかし、これらのプラットフォームにおける根本原因分析は複雑なシステムアーキテクチャのため自明ではない。
本稿では,キーパフォーマンス指標(KPI)やログ,トポロジといった異種マルチソースデータを利用したCloudRCAと呼ばれる根本原因分析フレームワークを提案し,最先端の異常検出とログ解析技術を用いて重要な特徴を抽出する。
得られた特徴は、知識インフォームド階層ベイズネットワーク(KHBN)モデルで利用され、高い精度と効率で根本原因を推測する。
アブレーション研究と総合的な実験比較では、既存のフレームワークであるCloudRCAと比較して、
1) 異なるクラウドシステム間でf1スコアの既存のアプローチを一貫して上回ります。
2) KHBNの階層構造のおかげで、新しいタイプの根本原因を処理できる。
3)アルゴリズムの構成に関してより堅牢に実行する。
4)データと機能サイズにおいて、より好適にスケールする。
また、クロスプラットフォーム転送学習機構を採用することで、精度をさらに10%以上向上できることを示す実験も行われている。
CloudRCAはAlibaba Cloudの診断システムに統合され、MaxCompute、Realtime Compute、Hologresの3つの典型的なクラウドコンピューティングプラットフォームに採用されている。
サイト信頼性エンジニア(sre)が過去12ヶ月の障害解決に費やした費用を20〜%以上削減し、サービスの信頼性を大幅に向上します。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight [12.272468397322738]
我々は、クラウドシステムのための因果グラフを自動的に合成する新しいアプローチであるAtlasを提示する。
我々はAtlasをさまざまな障害局所化シナリオで評価し、Atlasがスケーラブルで一般化可能な方法で因果グラフを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-11T17:31:12Z) - CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems [22.00860661894853]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。
CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文 参考訳(メタデータ) (2024-06-28T07:46:51Z) - Scalable Spatiotemporal Prediction with Bayesian Neural Fields [3.3299088915999295]
BayesNFは、高容量関数推定のための新しいディープニューラルネットワークアーキテクチャである。
気候および公衆衛生データセットからの統計的機械学習予測問題に対してベイズNFを評価した。
論文 参考訳(メタデータ) (2024-03-12T13:47:50Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - $\beta$-DARTS++: Bi-level Regularization for Proxy-robust Differentiable
Architecture Search [96.99525100285084]
DARTSに基づくNAS探索プロセス($beta$-DARTS)を正規化するための正規化手法であるBeta-Decayを提案する。
どのように動作するのか、なぜ動作するのかに関する詳細な理論的分析が提供される。
論文 参考訳(メタデータ) (2023-01-16T12:30:32Z) - Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - NetRCA: An Effective Network Fault Cause Localization Algorithm [22.88986905436378]
ネットワーク障害の根本原因の特定は、ネットワークの運用と保守に不可欠である。
この問題に対処するために,NetRCAという新しいアルゴリズムを提案する。
ICASSP 2022 AIOps Challengeの実際のデータセットで実験と分析が行われる。
論文 参考訳(メタデータ) (2022-02-23T02:03:35Z) - FIXME: Enhance Software Reliability with Hybrid Approaches in Cloud [4.160063446731227]
企業のハイブリッド診断アプローチでソフトウェア信頼性を高めるFIXMEをご紹介します。
以上の結果から,ハイブリッド診断手法は精度が約17%向上した。
論文 参考訳(メタデータ) (2021-02-17T02:34:26Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z) - Searching Central Difference Convolutional Networks for Face
Anti-Spoofing [68.77468465774267]
顔認識システムにおいて、顔の反偽造(FAS)が重要な役割を担っている。
最先端のFASメソッドの多くは、スタック化された畳み込みと専門家が設計したネットワークに依存している。
ここでは、中央差分畳み込み(CDC)に基づくフレームレベルの新しいFAS手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T12:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。