論文の概要: Dependency Aware Incident Linking in Large Cloud Systems
- arxiv url: http://arxiv.org/abs/2403.18639v1
- Date: Mon, 5 Feb 2024 13:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:34:48.491823
- Title: Dependency Aware Incident Linking in Large Cloud Systems
- Title(参考訳): 大規模クラウドシステムにおける依存性認識インシデントリンク
- Authors: Supriyo Ghosh, Karish Grover, Jimmy Wong, Chetan Bansal, Rakesh Namineni, Mohit Verma, Saravan Rajmohan,
- Abstract要約: 本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 8.797638977934646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant reliability efforts, large-scale cloud services inevitably experience production incidents that can significantly impact service availability and customer's satisfaction. Worse, in many cases one incident can lead to multiple downstream failures due to cascading effects that creates several related incidents across different dependent services. Often time On-call Engineers (OCEs) examine these incidents in silos that lead to significant amount of manual toil and increase the overall time-to-mitigate incidents. Therefore, developing efficient incident linking models is of paramount importance for grouping related incidents into clusters so as to quickly resolve major outages and reduce on-call fatigue. Existing incident linking methods mostly leverages textual and contextual information of incidents (e.g., title, description, severity, impacted components), thus failing to leverage the inter-dependencies between services. In this paper, we propose the dependency-aware incident linking (DiLink) framework which leverages both textual and service dependency graph information to improve the accuracy and coverage of incident links not only coming from same service, but also from different services and workloads. Furthermore, we propose a novel method to align the embeddings of multi-modal (i.e., textual and graphical) data using Orthogonal Procrustes. Extensive experimental results on real-world incidents from 5 workloads of Microsoft demonstrate that our alignment method has an F1-score of 0.96 (14% gain over current state-of-the-art methods). We are also in the process of deploying this solution across 610 services from these 5 workloads for continuously supporting OCEs improving incident management and reducing manual toil.
- Abstract(参考訳): 信頼性の高い努力にもかかわらず、大規模クラウドサービスは必然的に、サービスの可用性と顧客満足度に大きな影響を与える生産インシデントを経験します。
さらに悪いことに、多くの場合、1つのインシデントが複数のダウンストリーム障害を引き起こします。
多くの場合、オンコールエンジニア(OCE)は、これらのインシデントをサイロで調査し、大量の手動の爪を発生させ、全体的なタイム・トゥ・ミディゲートインシデントを増加させる。
したがって,効率的なインシデントリンクモデルの開発は,大規模な機能停止を迅速に解決し,オンコール疲労を軽減するために,関連するインシデントをクラスタにグループ化する上で極めて重要である。
既存のインシデントリンク手法は、主にインシデント(タイトル、説明、重大さ、影響のあるコンポーネントなど)のテキスト情報とコンテキスト情報を活用しているため、サービス間の依存性を活用できない。
本稿では、テキストおよびサービス依存グラフ情報を活用する依存性対応インシデントリンク(DiLink)フレームワークを提案し、同一サービスから来るインシデントリンクの精度とカバレッジを向上させるとともに、異なるサービスやワークロードからもたらされるインシデントリンクのカバレッジを改善する。
さらに,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する手法を提案する。
Microsoftの5つのワークロードによる実世界のインシデントに対する大規模な実験結果によると、アライメントメソッドのF1スコアは0.96(現在の最先端メソッドよりも14%向上)である。
また、これらの5つのワークロードから610のサービスにこのソリューションをデプロイして、インシデント管理の改善と手作業による爪の削減を継続的にサポートしています。
関連論文リスト
- Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Using Causality for Enhanced Prediction of Web Traffic Time Series [36.39678202395453]
本稿では,サービス間の因果関係を抽出する効果的なニューラルネットワークモジュールCCMPlusを提案する。
本手法は,MSE(Mean Squared Error)とMAE(Mean Absolute Error)の最先端手法を超越して,サービストラフィック時系列の予測を行う。
論文 参考訳(メタデータ) (2025-02-02T00:36:40Z) - Federated Granger Causality Learning for Interdependent Clients with State Space Representation [0.6499759302108926]
我々は、グランガー因果関係を学習するための連合的なアプローチを開発する。
本稿では,サーバが学習したGranger因果関係情報を用いてクライアントモデルを拡張することを提案する。
また、フレームワークの集中的なオラクルモデルへの収束について研究する。
論文 参考訳(メタデータ) (2025-01-23T18:04:21Z) - QUITO-X: A New Perspective on Context Compression from the Information Bottleneck Theory [66.01597794579568]
問題をモデル化するために情報ボトルネック理論(IB)を導入する。
IBにおける相互情報に近似するクロスアテンションに基づく手法を提案する。
提案手法は,最先端技術と比較して25%の圧縮率向上を実現している。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T06:19:02Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Graph-based Incident Aggregation for Large-Scale Online Service Systems [33.70557954446136]
本稿では,クラウド障害のカスケードグラフ上でのグラフ表現学習に基づくインシデント集約フレームワークGRLIAを提案する。
表現ベクトルは、一意のインシデントに対して、教師なしかつ統一された方法で学習され、トポロジ的および時間的相関を同時に符号化することができる。
提案フレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した実世界のインシデントデータを用いて評価する。
論文 参考訳(メタデータ) (2021-08-27T08:48:55Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。