論文の概要: Graph-based Incident Aggregation for Large-Scale Online Service Systems
- arxiv url: http://arxiv.org/abs/2108.12179v1
- Date: Fri, 27 Aug 2021 08:48:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:04:15.406715
- Title: Graph-based Incident Aggregation for Large-Scale Online Service Systems
- Title(参考訳): 大規模オンラインサービスシステムのためのグラフに基づくインシデント集約
- Authors: Zhuangbin Chen, Jinyang Liu, Yuxin Su, Hongyu Zhang, Xuemin Wen, Xiao
Ling, Yongqiang Yang, Michael R. Lyu
- Abstract要約: 本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
- 参考スコア(独自算出の注目度): 33.70557954446136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As online service systems continue to grow in terms of complexity and volume,
how service incidents are managed will significantly impact company revenue and
user trust. Due to the cascading effect, cloud failures often come with an
overwhelming number of incidents from dependent services and devices. To pursue
efficient incident management, related incidents should be quickly aggregated
to narrow down the problem scope. To this end, in this paper, we propose GRLIA,
an incident aggregation framework based on graph representation learning over
the cascading graph of cloud failures. A representation vector is learned for
each unique type of incident in an unsupervised and unified manner, which is
able to simultaneously encode the topological and temporal correlations among
incidents. Thus, it can be easily employed for online incident aggregation. In
particular, to learn the correlations more accurately, we try to recover the
complete scope of failures' cascading impact by leveraging fine-grained system
monitoring data, i.e., Key Performance Indicators (KPIs). The proposed
framework is evaluated with real-world incident data collected from a
large-scale online service system of Huawei Cloud. The experimental results
demonstrate that GRLIA is effective and outperforms existing methods.
Furthermore, our framework has been successfully deployed in industrial
practice.
- Abstract(参考訳): オンラインサービスシステムが複雑さとボリュームの面で成長を続けるにつれ、サービスインシデントの管理方法が企業の収益とユーザ信頼に大きく影響します。
カスケード効果のため、クラウド障害は、依存サービスやデバイスからの圧倒的なインシデントが発生することが多い。
効率的なインシデント管理を追求するためには、関連するインシデントを迅速に集約して問題の範囲を狭める必要がある。
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、インシデント間のトポロジ的および時間的相関を同時に符号化することができる、教師なしかつ統一された方法で各インシデントに対して学習される。
これにより、オンラインインシデント集約に容易に利用することができる。
特に、相関関係をより正確に学習するために、きめ細かいシステム監視データ、すなわちキーパフォーマンス指標(KPI)を活用して、障害のカスケード影響の完全な範囲を回復しようと試みる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
実験の結果,GRLIAは有効であり,既存手法よりも優れていた。
さらに,我々のフレームワークは工業的実践に成功している。
関連論文リスト
- CHASE: A Causal Heterogeneous Graph based Framework for Root Cause Analysis in Multimodal Microservice Systems [22.00860661894853]
マルチモーダルデータを持つマイクロサービスシステムにおける根本原因解析,すなわちCHASEのための因数不均一なgraAph baSed framEworkを提案する。
CHASEは、因果関係の流れを表すハイパーエッジを持つ構築されたハイパーグラフから学習し、根本原因の局在を実行する。
論文 参考訳(メタデータ) (2024-06-28T07:46:51Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T13:54:11Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Causality is all you need [63.10680366545293]
因果グラフルーティング(Causal Graph Routing, CGR)は、データに隠された原因影響力を明らかにするための介入機構を完全に依存した統合因果スキームである。
CGRは、Visual Question AnswerとLong Document Classificationタスクの両方において、最先端のメソッドを超越することができる。
論文 参考訳(メタデータ) (2023-11-21T02:53:40Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - Identifying Performance Issues in Cloud Service Systems Based on Relational-Temporal Features [11.83269525626691]
クラウドシステムはパフォーマンスの問題の影響を受けやすいため、サービスレベルの合意違反や財政的損失を引き起こす可能性がある。
本稿では,メトリクスの相対的特徴と時間的特徴を併用した学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T13:41:26Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Relational Graph Neural Networks for Fraud Detection in a Super-App
environment [53.561797148529664]
スーパーアプリケーションの金融サービスにおける不正行為防止のための関係グラフ畳み込みネットワーク手法の枠組みを提案する。
我々は,グラフニューラルネットワークの解釈可能性アルゴリズムを用いて,ユーザの分類タスクに対する最も重要な関係を判定する。
以上の結果から,Super-Appの代替データと高接続性で得られるインタラクションを利用するモデルには,付加価値があることが示唆された。
論文 参考訳(メタデータ) (2021-07-29T00:02:06Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。