論文の概要: Outage-Watch: Early Prediction of Outages using Extreme Event
Regularizer
- arxiv url: http://arxiv.org/abs/2309.17340v1
- Date: Fri, 29 Sep 2023 15:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 12:53:34.837124
- Title: Outage-Watch: Early Prediction of Outages using Extreme Event
Regularizer
- Title(参考訳): ダウンダウンウォッチ:extreme event regularizerによる早期停止予測
- Authors: Shubham Agarwal, Sarthak Chakraborty, Shaddy Garg, Sumit Bisht, Chahat
Jain, Ashritha Gonuguntla and Shiv Saini
- Abstract要約: これらの事象の希少さのため、重大な失敗を予測することは困難である。
提案手法であるOutage-Watchでは、重要なサービス停止を、メトリクスセットによってキャプチャされたQuality of Service(QoS)の劣化として定義する。
Outage-WatchはAUCの平均0.98で従来の方法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 2.7797363374834414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cloud services are omnipresent and critical cloud service failure is a fact
of life. In order to retain customers and prevent revenue loss, it is important
to provide high reliability guarantees for these services. One way to do this
is by predicting outages in advance, which can help in reducing the severity as
well as time to recovery. It is difficult to forecast critical failures due to
the rarity of these events. Moreover, critical failures are ill-defined in
terms of observable data. Our proposed method, Outage-Watch, defines critical
service outages as deteriorations in the Quality of Service (QoS) captured by a
set of metrics. Outage-Watch detects such outages in advance by using current
system state to predict whether the QoS metrics will cross a threshold and
initiate an extreme event. A mixture of Gaussian is used to model the
distribution of the QoS metrics for flexibility and an extreme event
regularizer helps in improving learning in tail of the distribution. An outage
is predicted if the probability of any one of the QoS metrics crossing
threshold changes significantly. Our evaluation on a real-world SaaS company
dataset shows that Outage-Watch significantly outperforms traditional methods
with an average AUC of 0.98. Additionally, Outage-Watch detects all the outages
exhibiting a change in service metrics and reduces the Mean Time To Detection
(MTTD) of outages by up to 88% when deployed in an enterprise cloud-service
system, demonstrating efficacy of our proposed method.
- Abstract(参考訳): クラウドサービスは全社的に存在し、クラウドサービスの失敗は命の事実である。
顧客を維持し、収益損失を防止するためには、これらのサービスに高い信頼性保証を提供することが重要である。
この方法の1つは、障害を事前に予測することで、重症度を低減し、回復までの時間を短縮することができる。
これらのイベントの豪華さのため、重大な障害を予測することは困難である。
さらに、クリティカルな障害は観測可能なデータの観点からは定義できない。
提案手法であるOutage-Watchでは、重要なサービス停止を、メトリクスセットによってキャプチャされたQuality of Service(QoS)の劣化として定義する。
Outage-Watchは、現在のシステム状態を使用して、QoSメトリクスがしきい値を越えて極端なイベントを開始するかどうかを事前に検出する。
ガウスの混合物はqosメトリクスの分布を柔軟にモデル化するために使われ、極端なイベントレギュラライザーは分布の尾での学習を改善するのに役立つ。
qosメトリックス交差しきい値のいずれかの確率が著しく変化した場合、停止が予測される。
現実のSaaS企業のデータセットに対する我々の評価は、Outage-Watchが従来の手法を平均0.98で大幅に上回っていることを示している。
さらに、Outage-Watchは、サービスメトリクスの変化を示すすべての障害を検出し、提案手法の有効性を実証し、エンタープライズクラウドサービスシステムにデプロイすると、障害の平均時間検出(MTTD)を最大88%削減する。
関連論文リスト
- PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z) - ARRQP: Anomaly Resilient Real-time QoS Prediction Framework with Graph
Convolution [0.16317061277456998]
我々は、データ内の異常に対するレジリエンスを改善することに焦点を当てたリアルタイム予測フレームワーク(ARRQP)を導入する。
ARRQPはコンテキスト情報と協調的な洞察を統合し、ユーザとサービスのインタラクションの包括的な理解を可能にする。
ベンチマークWS-DREAMデータセットの結果は、正確でタイムリーな予測を達成する上で、フレームワークの有効性を示している。
論文 参考訳(メタデータ) (2023-09-22T04:37:51Z) - Diffusion-based Time Series Data Imputation for Microsoft 365 [35.16965409097466]
本稿では,サンプル効率のよい拡散モデルであるDiffusion+によるデータ計算によるデータ品質の向上に焦点をあてる。
我々の実験と応用実践は、下流の故障予測タスクの性能向上に我々のモデルが貢献していることを示している。
論文 参考訳(メタデータ) (2023-08-03T10:25:17Z) - An Asymmetric Loss with Anomaly Detection LSTM Framework for Power
Consumption Prediction [1.6156983514505385]
住宅セクターの電力消費パターンには変動や異常が含まれており、予測は困難である。
非対称な損失関数を持つ複数のLong Short-Term Memory (LSTM) フレームワークを提案する。
気候や社会要因の影響を考慮すると、フランス、ドイツ、ハンガリーの3つのデータセットで季節分割が行われる。
論文 参考訳(メタデータ) (2023-02-05T17:16:15Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - CAROL: Confidence-Aware Resilience Model for Edge Federations [13.864161788250856]
本稿では、メモリ効率の良い生成ニューラルネットワークを用いて、将来状態のQuality of Service(QoS)を予測し、各予測に対する信頼度スコアを推定する信頼性認識型レジリエンスモデルCAROLを提案する。
CAROLは、エネルギー消費、期限違反率、レジリエンスオーバーヘッドを最大16、17、36パーセント削減することで、最先端のレジリエンススキームより優れています。
論文 参考訳(メタデータ) (2022-03-14T14:37:31Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z) - A Probability Distribution and Location-aware ResNet Approach for QoS
Prediction [8.491818037756488]
予測のための高度な確率分布と位置認識型ResNetアプローチを提案する。
以上の結果から, PLRは予測に有効であり, 密度5%~30%では, LDCFを12.35%~15.37%上回った。
論文 参考訳(メタデータ) (2020-11-16T08:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。