論文の概要: FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems
- arxiv url: http://arxiv.org/abs/2402.17583v1
- Date: Tue, 27 Feb 2024 15:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:43:15.767267
- Title: FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in
Large-scale Cloud Systems
- Title(参考訳): FaultProfIT: 大規模クラウドシステムにおけるインシデントチケットの階層的フォールトプロファイリング
- Authors: Junjie Huang, Jinyang Liu, Zhuangbin Chen, Zhihan Jiang, Yichen LI,
Jiazhen Gu, Cong Feng, Zengyin Yang, Yongqiang Yang, Michael R. Lyu
- Abstract要約: 本稿では,インシデントチケットの自動プロファイリング手法であるFaultProfITを提案する。
階層型指導型コントラスト学習を利用して、階層型インシデントエンコーダをトレーニングし、インシデント表現を強化したフォールトパターンを予測する。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
- 参考スコア(独自算出の注目度): 35.310727641258715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Postmortem analysis is essential in the management of incidents within cloud
systems, which provides valuable insights to improve system's reliability and
robustness. At CloudA, fault pattern profiling is performed during the
postmortem phase, which involves the classification of incidents' faults into
unique categories, referred to as fault pattern. By aggregating and analyzing
these fault patterns, engineers can discern common faults, vulnerable
components and emerging fault trends. However, this process is currently
conducted by manual labeling, which has inherent drawbacks. On the one hand,
the sheer volume of incidents means only the most severe ones are analyzed,
causing a skewed overview of fault patterns. On the other hand, the complexity
of the task demands extensive domain knowledge, which leads to errors and
inconsistencies. To address these limitations, we propose an automated
approach, named FaultProfIT, for Fault pattern Profiling of Incident Tickets.
It leverages hierarchy-guided contrastive learning to train a hierarchy-aware
incident encoder and predicts fault patterns with enhanced incident
representations. We evaluate FaultProfIT using the production incidents from
CloudA. The results demonstrate that FaultProfIT outperforms state-of-the-art
methods. Our ablation study and analysis also verify the effectiveness of
hierarchy-guided contrastive learning. Additionally, we have deployed
FaultProfIT at CloudA for six months. To date, FaultProfIT has analyzed 10,000+
incidents from 30+ cloud services, successfully revealing several fault trends
that have informed system improvements.
- Abstract(参考訳): 事後分析は、システムの信頼性と堅牢性を改善するための貴重な洞察を提供する、クラウドシステム内のインシデント管理に不可欠である。
CloudAでは、障害パターンプロファイリングは、インシデントの障害を、障害パターンと呼ばれるユニークなカテゴリに分類する、事後フェーズで実行される。
これらの障害パターンを集約し分析することで、エンジニアは共通の障害、脆弱なコンポーネント、出現する障害トレンドを識別できる。
しかし、このプロセスは現在、固有の欠点を持つ手動ラベリングによって実行される。
一方, インシデント量の多さから最も重大な解析しか行われず, 断層パターンのゆるやかな概観が生じる。
一方、タスクの複雑さは広範なドメイン知識を必要とするため、エラーや不整合につながる。
これらの制限に対処するために,我々は,インシデントチケットの障害パターンプロファイリングのための自動手法である faultprofitを提案する。
階層誘導型コントラスト学習を利用して階層認識インシデントエンコーダをトレーニングし、インシデント表現が強化された障害パターンを予測する。
CloudAのプロダクションインシデントを利用したFaultProfITの評価を行った。
その結果、FaultProfITは最先端のメソッドよりも優れています。
我々のアブレーション研究と分析は、階層型コントラスト学習の有効性も検証している。
さらに、CloudAで6ヶ月間、FaultProfITをデプロイしました。
これまで、FactProfITは30以上のクラウドサービスから1万以上のインシデントを分析し、システム改善を知らせるいくつかの障害トレンドを明らかにした。
関連論文リスト
- Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Root Causing Prediction Anomalies Using Explainable AI [3.970146574042422]
本稿では,機械学習モデルにおける根源的性能劣化に対する説明可能なAI(XAI)の新たな応用法を提案する。
単一機能の破損は、カスケード機能、ラベル、コンセプトドリフトを引き起こす可能性がある。
我々は、パーソナライズされた広告に使用されるモデルの信頼性を向上させるために、この手法をうまく応用した。
論文 参考訳(メタデータ) (2024-03-04T19:38:50Z) - KGroot: Enhancing Root Cause Analysis through Knowledge Graphs and Graph
Convolutional Neural Networks [14.336830860792707]
KGrootはイベント知識とイベント間の相関を使って根本原因推論を行う。
実験では、KGrootは第2レベルにおいて93.5%の確率で根本原因を特定できることを示した。
論文 参考訳(メタデータ) (2024-02-11T10:30:38Z) - Progressing from Anomaly Detection to Automated Log Labeling and
Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。
この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文 参考訳(メタデータ) (2023-12-22T15:04:20Z) - STEAM & MoSAFE: SOTIF Error-and-Failure Model & Analysis for AI-Enabled
Driving Automation [4.820785104084241]
本稿では、SOTIF因果モデルの改良として、STEAM(SotIF Temporal Error and Failure Model)を定義した。
第2に,システム設計モデルに基づくSTEAMのインスタンス化が可能なモデルベースSOTIF解析法(MoSAFE)を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:34:35Z) - Causal Disentanglement Hidden Markov Model for Fault Diagnosis [55.90917958154425]
本研究では, 軸受破壊機構の因果性を学ぶために, 因果解離隠れマルコフモデル (CDHM) を提案する。
具体的には、時系列データをフル活用し、振動信号を断層関連要因と断層関連要因に段階的に分解する。
アプリケーションの範囲を広げるために、学習された非絡み合った表現を他の作業環境に転送するために、教師なしのドメイン適応を採用する。
論文 参考訳(メタデータ) (2023-08-06T05:58:45Z) - Repairing Neural Networks by Leaving the Right Past Behind [23.78437548836594]
機械学習モデルの予測失敗は、トレーニングデータの欠陥から生じることが多い。
この研究は、目標とする障害を発生させたトレーニング例を特定し、それらに関する情報を消去することでモデルを修正するための一般的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-07-11T12:07:39Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。