論文の概要: Identifying Performance Issues in Cloud Service Systems Based on Relational-Temporal Features
- arxiv url: http://arxiv.org/abs/2307.10869v3
- Date: Thu, 07 Nov 2024 09:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:55.549233
- Title: Identifying Performance Issues in Cloud Service Systems Based on Relational-Temporal Features
- Title(参考訳): リレーショナル・テンポラルな特徴に基づくクラウドサービスシステムの性能問題
- Authors: Wenwei Gu, Jinyang Liu, Zhuangbin Chen, Jianping Zhang, Yuxin Su, Jiazhen Gu, Cong Feng, Zengyin Yang, Yongqiang Yang, Michael Lyu,
- Abstract要約: クラウドシステムはパフォーマンスの問題の影響を受けやすいため、サービスレベルの合意違反や財政的損失を引き起こす可能性がある。
本稿では,メトリクスの相対的特徴と時間的特徴を併用した学習に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 11.83269525626691
- License:
- Abstract: Cloud systems are susceptible to performance issues, which may cause service-level agreement violations and financial losses. In current practice, crucial metrics are monitored periodically to provide insight into the operational status of components. Identifying performance issues is often formulated as an anomaly detection problem, which is tackled by analyzing each metric independently. However, this approach overlooks the complex dependencies existing among cloud components. Some graph neural network-based methods take both temporal and relational information into account, however, the correlation violations in the metrics that serve as indicators of underlying performance issues are difficult for them to identify. Furthermore, a large volume of components in a cloud system results in a vast array of noisy metrics. This complexity renders it impractical for engineers to fully comprehend the correlations, making it challenging to identify performance issues accurately. To address these limitations, we propose Identifying Performance Issues based on Relational-Temporal Features (ISOLATE ), a learning-based approach that leverages both the relational and temporal features of metrics to identify performance issues. In particular, it adopts a graph neural network with attention to characterizing the relations among metrics and extracts long-term and multi-scale temporal patterns using a GRU and a convolution network, respectively. The learned graph attention weights can be further used to localize the correlation-violated metrics. Moreover, to relieve the impact of noisy data, ISOLATE utilizes a positive unlabeled learning strategy that tags pseudo-labels based on a small portion of confirmed negative examples. Extensive evaluation on both public and industrial datasets shows that ISOLATE outperforms all baseline models with 0.945 F1-score and 0.920 Hit rate@3.
- Abstract(参考訳): クラウドシステムはパフォーマンスの問題の影響を受けやすいため、サービスレベルの合意違反や財政的損失を引き起こす可能性がある。
現在の実践では、コンポーネントの運用状況に関する洞察を提供するために、重要なメトリクスを定期的に監視しています。
性能問題を特定することは、しばしば異常検出問題として定式化され、各計量を独立に分析することによって取り組まれる。
しかし、このアプローチはクラウドコンポーネント間で存在する複雑な依存関係を見落としている。
グラフニューラルネットワークに基づくいくつかの手法は、時間的情報とリレーショナル情報の両方を考慮に入れているが、基礎となるパフォーマンス問題の指標となるメトリクスの相関違反は、それらを特定するのが困難である。
さらに、クラウドシステム内の大量のコンポーネントは、膨大なノイズの多いメトリクスを生み出します。
この複雑さは、エンジニアが相関関係を完全に理解することが現実的ではなく、パフォーマンス上の問題を正確に識別することが困難である。
これらの制約に対処するため,関係時間的特徴(ISOLATE)に基づく性能問題を同定する手法を提案する。
特に、メトリクス間の関係を特徴付けることに注目したグラフニューラルネットワークを採用し、GRUと畳み込みネットワークを使用して、長期および複数スケールの時間パターンを抽出する。
学習されたグラフの注意重みは、相関に違反したメトリクスのローカライズにさらに用いられる。
さらに、ノイズデータの影響を緩和するため、ISOLATEでは、疑似ラベルを少数の否定例に基づいてタグ付けする、正のラベル付き学習戦略を採用している。
ISOLATEは0.945 F1スコアと0.920 Hit rate@3で全てのベースラインモデルを上回っている。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Multitask Active Learning for Graph Anomaly Detection [48.690169078479116]
MultItask acTIve Graph Anomaly Detection framework,すなわちMITIGATEを提案する。
ノード分類タスクを結合することにより、MITIGATEは既知の異常を伴わずに配布外ノードを検出する能力を得る。
4つのデータセットに関する実証的研究は、MITIGATEが異常検出のための最先端の手法を著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-24T03:43:45Z) - GATGPT: A Pre-trained Large Language Model with Graph Attention Network
for Spatiotemporal Imputation [19.371155159744934]
実世界の環境では、センサーの故障やデータ転送エラーなどの問題により、そのようなデータには欠落する要素がしばしば含まれる。
時間的計算の目的は、観測された時系列における固有の空間的および時間的関係を理解することによって、これらの欠落値を推定することである。
伝統的に、複雑な時間的計算は特定のアーキテクチャに依存しており、適用可能性の制限と高い計算複雑性に悩まされている。
対照的に、我々のアプローチは、事前訓練された大規模言語モデル(LLM)を複雑な時間的インプットに統合し、画期的なフレームワークであるGATGPTを導入している。
論文 参考訳(メタデータ) (2023-11-24T08:15:11Z) - Twin Graph-based Anomaly Detection via Attentive Multi-Modal Learning
for Microservice System [24.2074235652359]
我々は,マルチモーダル学習を通じて利用可能なすべてのデータモダリティをシームレスに統合するMSTGADを提案する。
本研究では,異なるモーダル間の相関関係をモデル化するために,空間的および時間的注意機構を備えたトランスフォーマーベースニューラルネットワークを構築した。
これにより、リアルタイムで自動的かつ正確に異常を検出することができる。
論文 参考訳(メタデータ) (2023-10-07T06:28:41Z) - Self-supervised Learning for Anomaly Detection in Computational
Workflows [10.39119516144685]
我々は、ラベルのないワークフローデータから要約統計を学習する自動エンコーダ駆動型自己教師学習(SSL)アプローチを導入する。
提案手法では,合成学習目標とコントラスト学習目標を組み合わせて,要約統計における外れ値を検出する。
潜在空間における正常な挙動の分布を推定することにより、我々のベンチマークデータセットにおける最先端の異常検出方法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T14:31:56Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - Correlation-aware Spatial-Temporal Graph Learning for Multivariate
Time-series Anomaly Detection [67.60791405198063]
時系列異常検出のための相関対応時空間グラフ学習(CST-GL)を提案する。
CST-GLは、多変量時系列相関学習モジュールを介してペアの相関を明示的にキャプチャする。
新規な異常スコアリング成分をCST-GLにさらに統合し、純粋に教師なしの方法で異常の度合いを推定する。
論文 参考訳(メタデータ) (2023-07-17T11:04:27Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。