論文の概要: Dependency Aware Incident Linking in Large Cloud Systems
- arxiv url: http://arxiv.org/abs/2403.18639v1
- Date: Mon, 5 Feb 2024 13:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:34:48.491823
- Title: Dependency Aware Incident Linking in Large Cloud Systems
- Title(参考訳): 大規模クラウドシステムにおける依存性認識インシデントリンク
- Authors: Supriyo Ghosh, Karish Grover, Jimmy Wong, Chetan Bansal, Rakesh Namineni, Mohit Verma, Saravan Rajmohan,
- Abstract要約: 本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 8.797638977934646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant reliability efforts, large-scale cloud services inevitably experience production incidents that can significantly impact service availability and customer's satisfaction. Worse, in many cases one incident can lead to multiple downstream failures due to cascading effects that creates several related incidents across different dependent services. Often time On-call Engineers (OCEs) examine these incidents in silos that lead to significant amount of manual toil and increase the overall time-to-mitigate incidents. Therefore, developing efficient incident linking models is of paramount importance for grouping related incidents into clusters so as to quickly resolve major outages and reduce on-call fatigue. Existing incident linking methods mostly leverages textual and contextual information of incidents (e.g., title, description, severity, impacted components), thus failing to leverage the inter-dependencies between services. In this paper, we propose the dependency-aware incident linking (DiLink) framework which leverages both textual and service dependency graph information to improve the accuracy and coverage of incident links not only coming from same service, but also from different services and workloads. Furthermore, we propose a novel method to align the embeddings of multi-modal (i.e., textual and graphical) data using Orthogonal Procrustes. Extensive experimental results on real-world incidents from 5 workloads of Microsoft demonstrate that our alignment method has an F1-score of 0.96 (14% gain over current state-of-the-art methods). We are also in the process of deploying this solution across 610 services from these 5 workloads for continuously supporting OCEs improving incident management and reducing manual toil.
- Abstract(参考訳): 信頼性の高い努力にもかかわらず、大規模クラウドサービスは必然的に、サービスの可用性と顧客満足度に大きな影響を与える生産インシデントを経験します。
さらに悪いことに、多くの場合、1つのインシデントが複数のダウンストリーム障害を引き起こします。
多くの場合、オンコールエンジニア(OCE)は、これらのインシデントをサイロで調査し、大量の手動の爪を発生させ、全体的なタイム・トゥ・ミディゲートインシデントを増加させる。
したがって,効率的なインシデントリンクモデルの開発は,大規模な機能停止を迅速に解決し,オンコール疲労を軽減するために,関連するインシデントをクラスタにグループ化する上で極めて重要である。
既存のインシデントリンク手法は、主にインシデント(タイトル、説明、重大さ、影響のあるコンポーネントなど)のテキスト情報とコンテキスト情報を活用しているため、サービス間の依存性を活用できない。
本稿では、テキストおよびサービス依存グラフ情報を活用する依存性対応インシデントリンク(DiLink)フレームワークを提案し、同一サービスから来るインシデントリンクの精度とカバレッジを向上させるとともに、異なるサービスやワークロードからもたらされるインシデントリンクのカバレッジを改善する。
さらに,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する手法を提案する。
Microsoftの5つのワークロードによる実世界のインシデントに対する大規模な実験結果によると、アライメントメソッドのF1スコアは0.96(現在の最先端メソッドよりも14%向上)である。
また、これらの5つのワークロードから610のサービスにこのソリューションをデプロイして、インシデント管理の改善と手作業による爪の削減を継続的にサポートしています。
関連論文リスト
- Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides [39.29715168284971]
サービスチームはトラブルシューティングの知識を、オンコールエンジニア(OCE)にアクセス可能なガイド(TSG)にコンパイルする。
TSGは、しばしば非構造的で不完全であり、OCEによる手動解釈が必要であり、オンコール疲労と生産性の低下につながる。
我々は、TSGとインシデント緩和履歴を活用して積極的な提案を行い、人間の介入を減らすニシストを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:14:23Z) - X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T06:19:02Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - DeepTriage: Automated Transfer Assistance for Incidents in Cloud
Services [5.418912231064684]
機械学習技術を組み合わせたインテリジェントなインシデント転送サービスであるDeepTriageを紹介する。
影響の大きいインシデントに対して、DeepTriageはF1スコアを76.3%から91.3%に引き上げた。
DeepTriageは2017年10月からAzureにデプロイされており、毎日数千のチームが使用している。
論文 参考訳(メタデータ) (2020-11-25T03:10:11Z) - Joint Constrained Learning for Event-Event Relation Extraction [94.3499255880101]
本稿では,イベント・イベント関係をモデル化するための制約付き協調学習フレームワークを提案する。
具体的には、このフレームワークは、複数の時間的および部分的関係内の論理的制約を強制する。
我々は,共同学習手法が,共同ラベル付きデータの欠如を効果的に補うことを示す。
論文 参考訳(メタデータ) (2020-10-13T22:45:28Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。