論文の概要: Anomaly Detection in a Large-scale Cloud Platform
- arxiv url: http://arxiv.org/abs/2010.10966v2
- Date: Thu, 11 Feb 2021 00:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:10:44.366078
- Title: Anomaly Detection in a Large-scale Cloud Platform
- Title(参考訳): 大規模クラウドプラットフォームにおける異常検出
- Authors: Mohammad Saiful Islam, William Pourmajidi, Lei Zhang, John
Steinbacher, Tony Erwin, Andriy Miranskyy
- Abstract要約: クラウドコンピューティングはユビキタスで、ますます多くの企業がワークロードをクラウドに移行している。
サービスプロバイダは、成長を続ける製品の品質を効果的に監視する必要があります。
我々は,IBM Cloud Platform用の自動監視システムを設計,実装した。
- 参考スコア(独自算出の注目度): 9.283888139549067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud computing is ubiquitous: more and more companies are moving the
workloads into the Cloud. However, this rise in popularity challenges Cloud
service providers, as they need to monitor the quality of their ever-growing
offerings effectively. To address the challenge, we designed and implemented an
automated monitoring system for the IBM Cloud Platform. This monitoring system
utilizes deep learning neural networks to detect anomalies in near-real-time in
multiple Platform components simultaneously.
After running the system for a year, we observed that the proposed solution
frees the DevOps team's time and human resources from manually monitoring
thousands of Cloud components. Moreover, it increases customer satisfaction by
reducing the risk of Cloud outages.
In this paper, we share our solutions' architecture, implementation notes,
and best practices that emerged while evolving the monitoring system. They can
be leveraged by other researchers and practitioners to build anomaly detectors
for complex systems.
- Abstract(参考訳): クラウドコンピューティングはユビキタスで、ますます多くの企業がワークロードをクラウドに移行している。
しかし、この人気が高まるとクラウドサービスプロバイダは、成長を続ける彼らの製品の品質を効果的に監視する必要がある。
この課題に対処するため、IBM Cloud Platform用の自動監視システムを設計、実装しました。
この監視システムは、ディープラーニングニューラルネットワークを用いて、複数のプラットフォームコンポーネントのほぼリアルタイムで異常を検出する。
1年間システムを実行した後、提案されたソリューションによって、DevOpsチームの時間と人的リソースが、数千のクラウドコンポーネントを手動で監視できないことが分かりました。
さらに、クラウド停止のリスクを低減することで顧客満足度を高める。
本稿では,モニタリングシステムの発展中に現れたソリューションのアーキテクチャ,実装ノート,ベストプラクティスについて述べる。
他の研究者や実践者が複雑なシステムのための異常検知器を構築するために利用することができる。
関連論文リスト
- Anomaly Detection in Large-Scale Cloud Systems: An Industry Case and Dataset [1.293050392312921]
我々は、IBM Cloud Consoleから4.5ヶ月以上にわたって収集された、IBM Cloudからの新しい高次元データセットを紹介します。
このデータセットは39,365行と117,448列のテレメトリデータからなる。
本稿では、異常検出のための機械学習モデルの応用を実演し、このプロセスで直面する重要な課題について論じる。
論文 参考訳(メタデータ) (2024-11-13T22:04:19Z) - CloudHeatMap: Heatmap-Based Monitoring for Large-Scale Cloud Systems [1.1199585259018456]
本稿では、LCSの状態をほぼリアルタイムにモニタリングする、新しいヒートマップベースの可視化ツールであるCloudHeatMapを提案する。
コールボリューム、応答時間、HTTP応答コードなどの重要なメトリクスを直感的に視覚化し、オペレータがパフォーマンス上の問題を素早く特定できるようにする。
論文 参考訳(メタデータ) (2024-10-28T14:57:10Z) - CloudEye: A New Paradigm of Video Analysis System for Mobile Visual Scenarios [22.871591373774802]
CloudEyeはリアルタイムで効率的なモバイル視覚認識システムである。
エッジサーバを備え、クラウドサーバと調整されたモバイルビジョンシステム環境において、エッジサーバ上のコンテンツ情報マイニングを使用する。
ネットワーク帯域幅を69.50%削減し、推論速度を24.55%向上させ、検出精度を67.30%向上させる。
論文 参考訳(メタデータ) (2024-10-24T03:27:05Z) - Scaling Data Science Solutions with Semantics and Machine Learning:
Bosch Case [8.445414390004636]
SemCloudはセマンティックスに強化されたクラウドシステムで、セマンティック技術と機械学習を備えている。
このシステムは、何百万ものデータ、何千もの繰り返し実行、ドメインユーザによる産業ユースケースで評価され、有望な結果を示している。
論文 参考訳(メタデータ) (2023-08-02T11:58:30Z) - Device-Cloud Collaborative Recommendation via Meta Controller [65.97416287295152]
オンデバイスレコメンデータとクラウドベースのレコメンデータの協調を動的に管理するメタコントローラを提案する。
対策サンプルと拡張トレーニングに基づいて,産業レコメンデーションシナリオにおける広範な実験は,メタコントローラの可能性を示唆している。
論文 参考訳(メタデータ) (2022-07-07T03:23:04Z) - Unsupervised Point Cloud Representation Learning with Deep Neural
Networks: A Survey [104.71816962689296]
大規模クラウドラベリングの制約により,教師なしのポイントクラウド表現学習が注目されている。
本稿では、ディープニューラルネットワークを用いた教師なしポイントクラウド表現学習の総合的なレビューを提供する。
論文 参考訳(メタデータ) (2022-02-28T07:46:05Z) - Online Self-Evolving Anomaly Detection in Cloud Computing Environments [6.480575492140354]
本稿では,クラウド信頼性保証のための自己進化型異常検出(SEAD)フレームワークを提案する。
我々のフレームワークは、新たに検証された異常記録を探索し、オンラインの異常検出を継続的に更新することによって、自己進化する。
我々の検出器は感度88.94%、平均94.60%を達成でき、実際の展開に適している。
論文 参考訳(メタデータ) (2021-11-16T05:13:38Z) - Edge-Cloud Polarization and Collaboration: A Comprehensive Survey [61.05059817550049]
クラウドとエッジ両方のAIの体系的なレビューを行います。
私たちはクラウドとエッジモデリングの協調学習メカニズムを最初にセットアップしました。
我々は現在進行中の最先端AIトピックの可能性と実践経験について議論する。
論文 参考訳(メタデータ) (2021-11-11T05:58:23Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。