論文の概要: KPIRoot+: An Efficient Integrated Framework for Anomaly Detection and Root Cause Analysis in Large-Scale Cloud Systems
- arxiv url: http://arxiv.org/abs/2506.04569v1
- Date: Thu, 05 Jun 2025 02:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.496076
- Title: KPIRoot+: An Efficient Integrated Framework for Anomaly Detection and Root Cause Analysis in Large-Scale Cloud Systems
- Title(参考訳): KPIRoot+:大規模クラウドシステムにおける異常検出とルート原因解析のための効率的な統合フレームワーク
- Authors: Wenwei Gu, Renyi Zhong, Guangba Yu, Xinying Sun, Jinyang Liu, Yintong Huo, Zhuangbin Chen, Jianping Zhang, Jiazhen Gu, Yongqiang Yang, Michael R. Lyu,
- Abstract要約: 類似性と因果分析を組み合わせた効率的な手法を提案する。
記号集合近似をコンパクト表現に用い、解析効率を向上する。
異常検出はいくつかのパフォーマンス異常を見逃し、SAX表現は複雑な変動傾向を捉えるのに失敗する。
- 参考スコア(独自算出の注目度): 28.36823614956519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure the reliability of cloud systems, their performance is monitored using KPIs (key performance indicators). When issues arise, root cause localization identifies KPIs responsible for service degradation, aiding in quick diagnosis and resolution. Traditional methods rely on similarity calculations, which can be ineffective in complex, interdependent cloud environments. While deep learning-based approaches model these dependencies better, they often face challenges such as high computational demands and lack of interpretability. To address these issues, KPIRoot is proposed as an efficient method combining similarity and causality analysis. It uses symbolic aggregate approximation for compact KPI representation, improving analysis efficiency. However, deployment in Cloud H revealed two drawbacks: 1) threshold-based anomaly detection misses some performance anomalies, and 2) SAX representation fails to capture intricate variation trends. KPIRoot+ addresses these limitations, outperforming eight state-of-the-art baselines by 2.9% to 35.7%, while reducing time cost by 34.7%. We also share our experience deploying KPIRoot in a large-scale cloud provider's production environment.
- Abstract(参考訳): クラウドシステムの信頼性を確保するため、そのパフォーマンスはKPI(キーパフォーマンス指標)を使用して監視される。
問題が生じた場合、根本原因のローカライゼーションはサービス劣化の原因となるKPIを特定し、迅速な診断と解決を支援する。
従来の手法は類似性計算に依存しており、複雑な相互依存のクラウド環境では効果がない。
ディープラーニングベースのアプローチはこれらの依存関係をより良くモデル化しますが、高い計算要求や解釈可能性の欠如といった課題に直面します。
これらの問題に対処するため、KPIRootは類似性と因果解析を組み合わせた効率的な手法として提案されている。
シンボリックアグリゲート近似を用いて、コンパクトなKPI表現を実現し、解析効率を向上させる。
しかし、Cloud Hのデプロイメントには2つの欠点があった。
1)しきい値に基づく異常検出はいくつかの性能異常を見逃し、
2) SAX 表現は複雑な変動傾向を捉えない。
KPIRoot+はこれらの制限に対処し、8つの最先端ベースラインを2.9%から35.7%に上回り、時間コストを34.7%削減した。
大規模なクラウドプロバイダの運用環境にKPIRootをデプロイした経験も共有しています。
関連論文リスト
- Simplifying Root Cause Analysis in Kubernetes with StateGraph and LLM [13.293736787442414]
我々は根本原因分析のための革新的なツールであるSynergyRCAを紹介する。
SynergyRCAは、空間的および時間的関係をキャプチャするStateGraphを構築する。
約2分間の平均で根本原因を特定でき、約0.90の精度を達成できる。
論文 参考訳(メタデータ) (2025-06-03T06:09:13Z) - Causal AI-based Root Cause Identification: Research to Practice at Scale [2.455633941531165]
我々は,相関関係に対する因果関係を強調する新しい因果関係に基づくルート因果同定(RCI)アルゴリズムを開発した。
本稿では、Instanaの高度な故障診断機能を強調し、RCIアルゴリズムの理論的基盤と実践的実装について論じる。
論文 参考訳(メタデータ) (2025-02-25T14:20:33Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions [18.36339203254509]
Fは軽量で関数ベースのクラウド実行モデルを導入し、IoTエッジデータ処理や異常検出など、さまざまなアプリケーションでその妥当性を見出す。
論文 参考訳(メタデータ) (2023-08-11T04:41:19Z) - Identifying Performance Issues in Cloud Service Systems Based on Relational-Temporal Features [11.83269525626691]
クラウドシステムはパフォーマンスの問題の影響を受けやすいため、サービスレベルの合意違反や財政的損失を引き起こす可能性がある。
本稿では,メトリクスの相対的特徴と時間的特徴を併用した学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T13:41:26Z) - The KFIoU Loss for Rotated Object Detection [115.334070064346]
本稿では,SkewIoU損失とトレンドレベルアライメントを両立できる近似的損失を考案する上で,有効な方法の1つとして論じる。
具体的には、対象をガウス分布としてモデル化し、SkewIoUのメカニズムを本質的に模倣するためにカルマンフィルタを採用する。
KFIoUと呼ばれる新たな損失は実装が容易で、正確なSkewIoUよりもうまく動作する。
論文 参考訳(メタデータ) (2022-01-29T10:54:57Z) - CloudRCA: A Root Cause Analysis Framework for Cloud Computing Platforms [10.385807432472854]
CloudRCAと呼ばれる根本原因分析フレームワークを提案する。
キーパフォーマンス指標(KPI)、ログ、トポロジなどの異種マルチソースデータを使用し、重要な特徴を抽出する。
f1スコアの既存のアプローチを、さまざまなクラウドシステムで一貫して上回ります。
論文 参考訳(メタデータ) (2021-11-05T23:03:21Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。