論文の概要: Performance Issue Identification in Cloud Systems with
Relational-Temporal Anomaly Detection
- arxiv url: http://arxiv.org/abs/2307.10869v2
- Date: Tue, 1 Aug 2023 07:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 22:10:03.855442
- Title: Performance Issue Identification in Cloud Systems with
Relational-Temporal Anomaly Detection
- Title(参考訳): 関係時間異常検出を含むクラウドシステムの性能問題同定
- Authors: Wenwei Gu, Jinyang Liu, Zhuangbin Chen, Jianping Zhang, Yuxin Su,
Jiazhen Gu, Cong Feng, Zengyin Yang and Michael Lyu
- Abstract要約: パフォーマンス上の問題は、大規模なクラウドサービスシステムに浸透し、大きな収益損失をもたらす可能性がある。
信頼性の高いパフォーマンスを保証するためには、サービス監視メトリクスを使用してこれらの問題を正確に識別することが不可欠です。
いくつかの既存手法は、異常を検出するために各計量を独立に解析することでこの問題に対処している。
- 参考スコア(独自算出の注目度): 5.473091770227683
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Performance issues permeate large-scale cloud service systems, which can lead
to huge revenue losses. To ensure reliable performance, it's essential to
accurately identify and localize these issues using service monitoring metrics.
Given the complexity and scale of modern cloud systems, this task can be
challenging and may require extensive expertise and resources beyond the
capacity of individual humans. Some existing methods tackle this problem by
analyzing each metric independently to detect anomalies. However, this could
incur overwhelming alert storms that are difficult for engineers to diagnose
manually. To pursue better performance, not only the temporal patterns of
metrics but also the correlation between metrics (i.e., relational patterns)
should be considered, which can be formulated as a multivariate metrics anomaly
detection problem. However, most of the studies fall short of extracting these
two types of features explicitly. Moreover, there exist some unlabeled
anomalies mixed in the training data, which may hinder the detection
performance. To address these limitations, we propose the Relational- Temporal
Anomaly Detection Model (RTAnomaly) that combines the relational and temporal
information of metrics. RTAnomaly employs a graph attention layer to learn the
dependencies among metrics, which will further help pinpoint the anomalous
metrics that may cause the anomaly effectively. In addition, we exploit the
concept of positive unlabeled learning to address the issue of potential
anomalies in the training data. To evaluate our method, we conduct experiments
on a public dataset and two industrial datasets. RTAnomaly outperforms all the
baseline models by achieving an average F1 score of 0.929 and Hit@3 of 0.920,
demonstrating its superiority.
- Abstract(参考訳): パフォーマンス問題は、大規模なクラウドサービスシステムに浸透し、大きな収益損失につながる可能性がある。
信頼性の高いパフォーマンスを保証するためには、サービス監視メトリクスを使用してこれらの問題を正確に識別し、ローカライズする必要がある。
現代のクラウドシステムの複雑さと規模を考えると、このタスクは困難であり、個々の人間の能力を超えた幅広い専門知識とリソースを必要とする可能性がある。
既存の手法では、各メトリックを独立して分析して異常を検出することでこの問題に対処している。
しかし、これはエンジニアが手動で診断することが難しい圧倒的な警報嵐を引き起こす可能性がある。
より良いパフォーマンスを追求するためには、メトリクスの時間的パターンだけでなく、メトリクス(リレーショナルパターン)間の相関も考慮し、多変量メトリクス異常検出問題として定式化する必要がある。
しかし、ほとんどの研究はこれらの2種類の特徴を明示的に抽出するに足りていない。
さらに、トレーニングデータ中にラベルのない異常が混在しており、検出性能を損なう可能性がある。
これらの制約に対処するために,メトリクスの相関情報と時間情報を組み合わせた関係時間異常検出モデル(RTAnomaly)を提案する。
RTAnomalyは、メトリクス間の依存関係を学習するためにグラフアテンション層を使用し、異常を効果的に発生させる可能性のある異常メトリクスの特定をさらに助ける。
さらに、ポジティブなラベルなし学習の概念を利用して、トレーニングデータの潜在的な異常の問題に対処する。
提案手法を評価するため,公開データセットと2つの産業データセットを用いて実験を行った。
RTAnomaly は、平均 F1 スコア 0.929 と Hit@3 0.920 を達成し、その優位性を示している。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Multitask Active Learning for Graph Anomaly Detection [48.690169078479116]
MultItask acTIve Graph Anomaly Detection framework,すなわちMITIGATEを提案する。
ノード分類タスクを結合することにより、MITIGATEは既知の異常を伴わずに配布外ノードを検出する能力を得る。
4つのデータセットに関する実証的研究は、MITIGATEが異常検出のための最先端の手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-24T03:43:45Z) - GATGPT: A Pre-trained Large Language Model with Graph Attention Network
for Spatiotemporal Imputation [19.371155159744934]
実世界の環境では、センサーの故障やデータ転送エラーなどの問題により、そのようなデータには欠落する要素がしばしば含まれる。
時間的計算の目的は、観測された時系列における固有の空間的および時間的関係を理解することによって、これらの欠落値を推定することである。
伝統的に、複雑な時間的計算は特定のアーキテクチャに依存しており、適用可能性の制限と高い計算複雑性に悩まされている。
対照的に、我々のアプローチは、事前訓練された大規模言語モデル(LLM)を複雑な時間的インプットに統合し、画期的なフレームワークであるGATGPTを導入している。
論文 参考訳(メタデータ) (2023-11-24T08:15:11Z) - Twin Graph-based Anomaly Detection via Attentive Multi-Modal Learning
for Microservice System [24.2074235652359]
我々は,マルチモーダル学習を通じて利用可能なすべてのデータモダリティをシームレスに統合するMSTGADを提案する。
本研究では,異なるモーダル間の相関関係をモデル化するために,空間的および時間的注意機構を備えたトランスフォーマーベースニューラルネットワークを構築した。
これにより、リアルタイムで自動的かつ正確に異常を検出することができる。
論文 参考訳(メタデータ) (2023-10-07T06:28:41Z) - Self-supervised Learning for Anomaly Detection in Computational
Workflows [10.39119516144685]
我々は、ラベルのないワークフローデータから要約統計を学習する自動エンコーダ駆動型自己教師学習(SSL)アプローチを導入する。
提案手法では,合成学習目標とコントラスト学習目標を組み合わせて,要約統計における外れ値を検出する。
潜在空間における正常な挙動の分布を推定することにより、我々のベンチマークデータセットにおける最先端の異常検出方法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T14:31:56Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - Correlation-aware Spatial-Temporal Graph Learning for Multivariate
Time-series Anomaly Detection [67.60791405198063]
時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。
CST-GLは、多変量時系列相関学習モジュールを介してペアの相関を明示的にキャプチャする。
新規な異常スコアリング成分をCST-GLにさらに統合し、純粋に教師なしの方法で異常の度合いを推定する。
論文 参考訳(メタデータ) (2023-07-17T11:04:27Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。