論文の概要: DeepTriage: Automated Transfer Assistance for Incidents in Cloud
Services
- arxiv url: http://arxiv.org/abs/2012.03665v1
- Date: Wed, 25 Nov 2020 03:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 01:45:23.081233
- Title: DeepTriage: Automated Transfer Assistance for Incidents in Cloud
Services
- Title(参考訳): DeepTriage: クラウドサービスにおけるインシデントの自動転送支援
- Authors: Phuong Pham, Vivek Jain, Lukas Dauterman, Justin Ormont, Navendu Jain
- Abstract要約: 機械学習技術を組み合わせたインテリジェントなインシデント転送サービスであるDeepTriageを紹介する。
影響の大きいインシデントに対して、DeepTriageはF1スコアを76.3%から91.3%に引き上げた。
DeepTriageは2017年10月からAzureにデプロイされており、毎日数千のチームが使用している。
- 参考スコア(独自算出の注目度): 5.418912231064684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As cloud services are growing and generating high revenues, the cost of
downtime in these services is becoming significantly expensive. To reduce loss
and service downtime, a critical primary step is to execute incident triage,
the process of assigning a service incident to the correct responsible team, in
a timely manner. An incorrect assignment risks additional incident reroutings
and increases its time to mitigate by 10x. However, automated incident triage
in large cloud services faces many challenges: (1) a highly imbalanced incident
distribution from a large number of teams, (2) wide variety in formats of input
data or data sources, (3) scaling to meet production-grade requirements, and
(4) gaining engineers' trust in using machine learning recommendations. To
address these challenges, we introduce DeepTriage, an intelligent incident
transfer service combining multiple machine learning techniques - gradient
boosted classifiers, clustering methods, and deep neural networks - in an
ensemble to recommend the responsible team to triage an incident. Experimental
results on real incidents in Microsoft Azure show that our service achieves
82.9% F1 score. For highly impacted incidents, DeepTriage achieves F1 score
from 76.3% - 91.3%. We have applied best practices and state-of-the-art
frameworks to scale DeepTriage to handle incident routing for all cloud
services. DeepTriage has been deployed in Azure since October 2017 and is used
by thousands of teams daily.
- Abstract(参考訳): クラウドサービスが成長し、高い収益を生み出しているため、これらのサービスのダウンタイムコストは非常に高くなっています。
損失とサービスのダウンタイムを減らすために、重要な主要なステップは、適切な責任のあるチームにサービスインシデントを割り当てるプロセスであるインシデントトリアージを実行することです。
不正な割り当ては、追加のインシデントリルーティングを危険にさらし、その時間を10倍に短縮する。
しかし,大規模クラウドサービスにおける自動インシデントトリアージは,(1)多数のチームからの高度に不均衡なインシデント分布,(2)入力データやデータソースの多種多様なフォーマット,(3)製品レベルの要件を満たすスケーリング,(4)マシンラーニングレコメンデーションの利用に対するエンジニアの信頼獲得など,多くの課題に直面している。
これらの課題に対処するため、我々は、複数の機械学習技術 - 勾配強調分類器、クラスタリング方法、ディープニューラルネットワーク - を組み合わせたインテリジェントインシデント転送サービスであるdeeptriageを、責任あるチームにインシデントをトリアージするよう推奨するアンサンブルに導入する。
Microsoft Azureの実際のインシデントに関する実験結果は、当社のサービスが82.9%のF1スコアを達成したことを示している。
影響の大きいインシデントに対して、DeepTriageはF1スコアを76.3%から91.3%に引き上げた。
私たちは、すべてのクラウドサービスのインシデントルーティングを処理するために、DeepTriageをスケールするためにベストプラクティスと最先端のフレームワークを適用しました。
deeptriageは2017年10月からazureにデプロイされており、毎日何千ものチームが使用している。
関連論文リスト
- X-lifecycle Learning for Cloud Incident Management using LLMs [18.076347758182067]
大規模なクラウドサービスのインシデント管理は複雑で面倒なプロセスです。
大規模言語モデル [LLMs] の最近の進歩は、コンテキストレコメンデーションを自動的に生成する機会を生み出した。
本稿では,SDLCの異なる段階から追加のコンテキストデータを追加することで,性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-15T06:19:02Z) - Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T13:54:11Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Recommending Root-Cause and Mitigation Steps for Cloud Incidents using
Large Language Models [18.46643617658214]
オンコールエンジニアは、生産インシデントの根本原因と緩和のために、かなりの量のドメイン知識と手作業を必要とします。
人工知能の最近の進歩は、GPT-3.xのような最先端の大規模言語モデルを生み出している。
我々は、エンジニアの根本原因と生産インシデントを支援するために、これらのモデルの有効性を評価するために、最初の大規模な研究を行った。
論文 参考訳(メタデータ) (2023-01-10T05:41:40Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - On Improving Deep Learning Trace Analysis with System Call Arguments [1.3299507495084417]
カーネルトレースは名前と複数の引数からなる低レベルのイベントのシーケンスである。
埋め込みとエンコーディングの両方を用いて、イベント名の表現と引数を学習するための一般的なアプローチを導入する。
論文 参考訳(メタデータ) (2021-03-11T19:26:34Z) - Neural Knowledge Extraction From Cloud Service Incidents [13.86595381172654]
SoftNERは、サービスインシデントから教師なしの知識抽出のためのフレームワークである。
マルチタスク学習に基づく新しいBiLSTM-CRFモデルを構築した。
教師なし機械学習に基づく手法の精度は0.96であることを示す。
論文 参考訳(メタデータ) (2020-07-10T17:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。