論文の概要: Dependency Aware Incident Linking in Large Cloud Systems
- arxiv url: http://arxiv.org/abs/2403.18639v1
- Date: Mon, 5 Feb 2024 13:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:34:48.491823
- Title: Dependency Aware Incident Linking in Large Cloud Systems
- Title(参考訳): 大規模クラウドシステムにおける依存性認識インシデントリンク
- Authors: Supriyo Ghosh, Karish Grover, Jimmy Wong, Chetan Bansal, Rakesh Namineni, Mohit Verma, Saravan Rajmohan,
- Abstract要約: 本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 8.797638977934646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant reliability efforts, large-scale cloud services inevitably experience production incidents that can significantly impact service availability and customer's satisfaction. Worse, in many cases one incident can lead to multiple downstream failures due to cascading effects that creates several related incidents across different dependent services. Often time On-call Engineers (OCEs) examine these incidents in silos that lead to significant amount of manual toil and increase the overall time-to-mitigate incidents. Therefore, developing efficient incident linking models is of paramount importance for grouping related incidents into clusters so as to quickly resolve major outages and reduce on-call fatigue. Existing incident linking methods mostly leverages textual and contextual information of incidents (e.g., title, description, severity, impacted components), thus failing to leverage the inter-dependencies between services. In this paper, we propose the dependency-aware incident linking (DiLink) framework which leverages both textual and service dependency graph information to improve the accuracy and coverage of incident links not only coming from same service, but also from different services and workloads. Furthermore, we propose a novel method to align the embeddings of multi-modal (i.e., textual and graphical) data using Orthogonal Procrustes. Extensive experimental results on real-world incidents from 5 workloads of Microsoft demonstrate that our alignment method has an F1-score of 0.96 (14% gain over current state-of-the-art methods). We are also in the process of deploying this solution across 610 services from these 5 workloads for continuously supporting OCEs improving incident management and reducing manual toil.
- Abstract(参考訳): 信頼性の高い努力にもかかわらず、大規模クラウドサービスは必然的に、サービスの可用性と顧客満足度に大きな影響を与える生産インシデントを経験します。
さらに悪いことに、多くの場合、1つのインシデントが複数のダウンストリーム障害を引き起こします。
多くの場合、オンコールエンジニア(OCE)は、これらのインシデントをサイロで調査し、大量の手動の爪を発生させ、全体的なタイム・トゥ・ミディゲートインシデントを増加させる。
したがって,効率的なインシデントリンクモデルの開発は,大規模な機能停止を迅速に解決し,オンコール疲労を軽減するために,関連するインシデントをクラスタにグループ化する上で極めて重要である。
既存のインシデントリンク手法は、主にインシデント(タイトル、説明、重大さ、影響のあるコンポーネントなど)のテキスト情報とコンテキスト情報を活用しているため、サービス間の依存性を活用できない。
本稿では、テキストおよびサービス依存グラフ情報を活用する依存性対応インシデントリンク(DiLink)フレームワークを提案し、同一サービスから来るインシデントリンクの精度とカバレッジを向上させるとともに、異なるサービスやワークロードからもたらされるインシデントリンクのカバレッジを改善する。
さらに,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する手法を提案する。
Microsoftの5つのワークロードによる実世界のインシデントに対する大規模な実験結果によると、アライメントメソッドのF1スコアは0.96(現在の最先端メソッドよりも14%向上)である。
また、これらの5つのワークロードから610のサービスにこのソリューションをデプロイして、インシデント管理の改善と手作業による爪の削減を継続的にサポートしています。
関連論文リスト
- Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides [31.640578330629808]
サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:14:23Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Identifying contributors to supply chain outcomes in a multi-echelon
setting: a decentralised approach [69.62333053044712]
本稿では,推定貢献の分散計算における説明可能な人工知能の利用を提案する。
このアプローチは、サプライチェーンアクターにデータ共有を説得する必要性を緩和する。
その結果,集中型アプローチと比較して,品質変化の源泉を検出する方法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-22T20:03:16Z) - HePCo: Data-Free Heterogeneous Prompt Consolidation for Continual
Federated Learning [21.639199127980508]
我々はCFL(Continuous Federated Learning)の重要な課題に焦点をあてる。
CFLはサーバが一連のクライアントと通信して、データを共有したり保存したりすることなく、新たな概念を漸進的に学習する場所です。
本稿では,サーバにおけるクライアントモデルを統合するための,新規で軽量な生成・蒸留方式を提案する。
論文 参考訳(メタデータ) (2023-06-16T17:02:12Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations [55.131858975133085]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - DeepTriage: Automated Transfer Assistance for Incidents in Cloud
Services [5.418912231064684]
機械学習技術を組み合わせたインテリジェントなインシデント転送サービスであるDeepTriageを紹介する。
影響の大きいインシデントに対して、DeepTriageはF1スコアを76.3%から91.3%に引き上げた。
DeepTriageは2017年10月からAzureにデプロイされており、毎日数千のチームが使用している。
論文 参考訳(メタデータ) (2020-11-25T03:10:11Z) - Joint Constrained Learning for Event-Event Relation Extraction [94.3499255880101]
本稿では,イベント・イベント関係をモデル化するための制約付き協調学習フレームワークを提案する。
具体的には、このフレームワークは、複数の時間的および部分的関係内の論理的制約を強制する。
我々は,共同学習手法が,共同ラベル付きデータの欠如を効果的に補うことを示す。
論文 参考訳(メタデータ) (2020-10-13T22:45:28Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。