論文の概要: FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems
- arxiv url: http://arxiv.org/abs/2402.17583v1
- Date: Tue, 27 Feb 2024 15:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:43:15.767267
- Title: FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems
- Title(参考訳): FaultProfIT: 大規模クラウドシステムにおけるインシデントチケットの階層的フォールトプロファイリング
- Authors: Junjie Huang, Jinyang Liu, Zhuangbin Chen, Zhihan Jiang, Yichen LI,
Jiazhen Gu, Cong Feng, Zengyin Yang, Yongqiang Yang, Michael R. Lyu
- Abstract要約: 本稿では,インシデントチケットの自動プロファイリング手法であるFaultProfITを提案する。
階層型指導型コントラスト学習を利用して、階層型インシデントエンコーダをトレーニングし、インシデント表現を強化したフォールトパターンを予測する。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
- 参考スコア(独自算出の注目度): 35.310727641258715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Postmortem analysis is essential in the management of incidents within cloud
systems, which provides valuable insights to improve system's reliability and
robustness. At CloudA, fault pattern profiling is performed during the
postmortem phase, which involves the classification of incidents' faults into
unique categories, referred to as fault pattern. By aggregating and analyzing
these fault patterns, engineers can discern common faults, vulnerable
components and emerging fault trends. However, this process is currently
conducted by manual labeling, which has inherent drawbacks. On the one hand,
the sheer volume of incidents means only the most severe ones are analyzed,
causing a skewed overview of fault patterns. On the other hand, the complexity
of the task demands extensive domain knowledge, which leads to errors and
inconsistencies. To address these limitations, we propose an automated
approach, named FaultProfIT, for Fault pattern Profiling of Incident Tickets.
It leverages hierarchy-guided contrastive learning to train a hierarchy-aware
incident encoder and predicts fault patterns with enhanced incident
representations. We evaluate FaultProfIT using the production incidents from
CloudA. The results demonstrate that FaultProfIT outperforms state-of-the-art
methods. Our ablation study and analysis also verify the effectiveness of
hierarchy-guided contrastive learning. Additionally, we have deployed
FaultProfIT at CloudA for six months. To date, FaultProfIT has analyzed 10,000+
incidents from 30+ cloud services, successfully revealing several fault trends
that have informed system improvements.
- Abstract(参考訳): 事後分析は、システムの信頼性と堅牢性を改善するための貴重な洞察を提供する、クラウドシステム内のインシデント管理に不可欠である。
CloudAでは、障害パターンプロファイリングは、インシデントの障害を、障害パターンと呼ばれるユニークなカテゴリに分類する、事後フェーズで実行される。
これらの障害パターンを集約し分析することで、エンジニアは共通の障害、脆弱なコンポーネント、出現する障害トレンドを識別できる。
しかし、このプロセスは現在、固有の欠点を持つ手動ラベリングによって実行される。
一方, インシデント量の多さから最も重大な解析しか行われず, 断層パターンのゆるやかな概観が生じる。
一方、タスクの複雑さは広範なドメイン知識を必要とするため、エラーや不整合につながる。
これらの制限に対処するために,我々は,インシデントチケットの障害パターンプロファイリングのための自動手法である faultprofitを提案する。
階層誘導型コントラスト学習を利用して階層認識インシデントエンコーダをトレーニングし、インシデント表現が強化された障害パターンを予測する。
CloudAのプロダクションインシデントを利用したFaultProfITの評価を行った。
その結果、FaultProfITは最先端のメソッドよりも優れています。
我々のアブレーション研究と分析は、階層型コントラスト学習の有効性も検証している。
さらに、CloudAで6ヶ月間、FaultProfITをデプロイしました。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
関連論文リスト
- Root Causing Prediction Anomalies Using Explainable AI [3.970146574042422]
本稿では,機械学習モデルにおける根源的性能劣化に対する説明可能なAI(XAI)の新たな応用法を提案する。
単一機能の破損は、カスケード機能、ラベル、コンセプトドリフトを引き起こす可能性がある。
我々は、パーソナライズされた広告に使用されるモデルの信頼性を向上させるために、この手法をうまく応用した。
論文 参考訳(メタデータ) (2024-03-04T19:38:50Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Progressing from Anomaly Detection to Automated Log Labeling and
Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。
この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文 参考訳(メタデータ) (2023-12-22T15:04:20Z) - STEAM & MoSAFE: SOTIF Error-and-Failure Model & Analysis for AI-Enabled
Driving Automation [4.820785104084241]
本稿では、SOTIF因果モデルの改良として、STEAM(SotIF Temporal Error and Failure Model)を定義した。
第2に,システム設計モデルに基づくSTEAMのインスタンス化が可能なモデルベースSOTIF解析法(MoSAFE)を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:34:35Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Repairing Neural Networks by Leaving the Right Past Behind [23.78437548836594]
機械学習モデルの予測失敗は、トレーニングデータの欠陥から生じることが多い。
この研究は、目標とする障害を発生させたトレーニング例を特定し、それらに関する情報を消去することでモデルを修正するための一般的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-07-11T12:07:39Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。