論文の概要: Graph-based Incident Aggregation for Large-Scale Online Service Systems
- arxiv url: http://arxiv.org/abs/2108.12179v1
- Date: Fri, 27 Aug 2021 08:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:04:15.406715
- Title: Graph-based Incident Aggregation for Large-Scale Online Service Systems
- Title(参考訳): 大規模オンラインサービスシステムのためのグラフに基づくインシデント集約
- Authors: Zhuangbin Chen, Jinyang Liu, Yuxin Su, Hongyu Zhang, Xuemin Wen, Xiao
Ling, Yongqiang Yang, Michael R. Lyu
- Abstract要約: 本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
- 参考スコア(独自算出の注目度): 33.70557954446136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As online service systems continue to grow in terms of complexity and volume,
how service incidents are managed will significantly impact company revenue and
user trust. Due to the cascading effect, cloud failures often come with an
overwhelming number of incidents from dependent services and devices. To pursue
efficient incident management, related incidents should be quickly aggregated
to narrow down the problem scope. To this end, in this paper, we propose GRLIA,
an incident aggregation framework based on graph representation learning over
the cascading graph of cloud failures. A representation vector is learned for
each unique type of incident in an unsupervised and unified manner, which is
able to simultaneously encode the topological and temporal correlations among
incidents. Thus, it can be easily employed for online incident aggregation. In
particular, to learn the correlations more accurately, we try to recover the
complete scope of failures' cascading impact by leveraging fine-grained system
monitoring data, i.e., Key Performance Indicators (KPIs). The proposed
framework is evaluated with real-world incident data collected from a
large-scale online service system of Huawei Cloud. The experimental results
demonstrate that GRLIA is effective and outperforms existing methods.
Furthermore, our framework has been successfully deployed in industrial
practice.
- Abstract(参考訳): オンラインサービスシステムが複雑さとボリュームの面で成長を続けるにつれ、サービスインシデントの管理方法が企業の収益とユーザ信頼に大きく影響します。
カスケード効果のため、クラウド障害は、依存サービスやデバイスからの圧倒的なインシデントが発生することが多い。
効率的なインシデント管理を追求するためには、関連するインシデントを迅速に集約して問題の範囲を狭める必要がある。
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、インシデント間のトポロジ的および時間的相関を同時に符号化することができる、教師なしかつ統一された方法で各インシデントに対して学習される。
これにより、オンラインインシデント集約に容易に利用することができる。
特に、相関関係をより正確に学習するために、きめ細かいシステム監視データ、すなわちキーパフォーマンス指標(KPI)を活用して、障害のカスケード影響の完全な範囲を回復しようと試みる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
実験の結果,GRLIAは有効であり,既存手法よりも優れていた。
さらに,我々のフレームワークは工業的実践に成功している。
関連論文リスト
- FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems [35.310727641258715]
本稿では,インシデントチケットの自動プロファイリング手法であるFaultProfITを提案する。
階層型指導型コントラスト学習を利用して、階層型インシデントエンコーダをトレーニングし、インシデント表現を強化したフォールトパターンを予測する。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
論文 参考訳(メタデータ) (2024-02-27T15:14:19Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Causality is all you need [63.10680366545293]
因果グラフルーティング(Causal Graph Routing, CGR)は、データに隠された原因影響力を明らかにするための介入機構を完全に依存した統合因果スキームである。
CGRは、Visual Question AnswerとLong Document Classificationタスクの両方において、最先端のメソッドを超越することができる。
論文 参考訳(メタデータ) (2023-11-21T02:53:40Z) - FedGKD: Unleashing the Power of Collaboration in Federated Graph Neural
Networks [40.5420021584431]
グラフニューラルネットワーク(GNN)のフェデレーショントレーニングは、データ分離シナリオ下でグラフ関連のタスクを実行する能力によって、近年人気を集めている。
連合型GNNシステムにおけるグラフの不均一性問題は、引き続き課題を提起している。
本稿では,新しいクライアント側グラフデータセット蒸留法を利用した新しいGNNフレームワークであるFedGKDを提案する。
論文 参考訳(メタデータ) (2023-09-18T06:55:14Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Relational Graph Neural Networks for Fraud Detection in a Super-App
environment [53.561797148529664]
スーパーアプリケーションの金融サービスにおける不正行為防止のための関係グラフ畳み込みネットワーク手法の枠組みを提案する。
我々は,グラフニューラルネットワークの解釈可能性アルゴリズムを用いて,ユーザの分類タスクに対する最も重要な関係を判定する。
以上の結果から,Super-Appの代替データと高接続性で得られるインタラクションを利用するモデルには,付加価値があることが示唆された。
論文 参考訳(メタデータ) (2021-07-29T00:02:06Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。