論文の概要: Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis
- arxiv url: http://arxiv.org/abs/2603.23890v1
- Date: Wed, 25 Mar 2026 03:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.109881
- Title: Praxium: Diagnosing Cloud Anomalies with AI-based Telemetry and Dependency Analysis
- Title(参考訳): Praxium: AIベースのテレメトリと依存性分析によるクラウド異常の診断
- Authors: Rohan Kumar, Jason Li, Zongshun Zhang, Syed Mohammad Qasim, Gianluca Stringhini, Ayse Kivilcim Coskun,
- Abstract要約: Praxiumは異常検出と根本原因推論のためのフレームワークである。
本稿では,Praxiumが効果的な異常検出および根本原因推定に有効であることを実証する。
- 参考スコア(独自算出の注目度): 9.723680308452018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the modern microservice architecture for cloud applications grows in popularity, cloud services are becoming increasingly complex and more vulnerable to misconfiguration and software bugs. Traditional approaches rely on expert input to diagnose and fix microservice anomalies, which lacks scalability in the face of the continuous integration and continuous deployment (CI/CD) paradigm. Microservice rollouts, containing new software installations, have complex interactions with the components of an application. Consequently, this added difficulty in attributing anomalous behavior to any specific installation or rollout results in potentially slower resolution times. To address the gaps in current diagnostic methods, this paper introduces Praxium, a framework for anomaly detection and root cause inference. Praxium aids administrators in evaluating target metric performance in the context of dependency installation information provided by a software discovery tool, PraxiPaaS. Praxium continuously monitors telemetry data to identify anomalies, then conducts root cause analysis via causal impact on recent software installations, in order to provide site reliability engineers (SRE) relevant information about an observed anomaly. In this paper, we demonstrate that Praxium is capable of effective anomaly detection and root cause inference, and we provide an analysis on effective anomaly detection hyperparameter tuning as needed in a practical setting. Across 75 total trials using four synthetic anomalies, anomaly detection consistently performs at >0.97 macro-F1. In addition, we show that causal impact analysis reliably infers the correct root cause of anomalies, even as package installations occur at increasingly shorter intervals.
- Abstract(参考訳): クラウドアプリケーションのための現代的なマイクロサービスアーキテクチャが普及するにつれて、クラウドサービスはますます複雑になり、設定ミスやソフトウェアバグに対して脆弱になっている。
従来のアプローチでは、継続的インテグレーションと継続的デプロイメント(CI/CD)のパラダイムに直面するスケーラビリティに欠ける、マイクロサービスの異常の診断と修正に専門家の入力に依存していた。
新しいソフトウェアインストールを含むマイクロサービスのロールアウトは、アプリケーションのコンポーネントと複雑なインタラクションを持つ。
その結果、特定のインストールやロールアウトに異常な振る舞いをもたらすことが困難になったため、潜在的に解像度が遅くなる可能性がある。
そこで本研究では, 異常検出と根本原因推定のためのフレームワークであるPraxiumを紹介する。
Praxiumは、ソフトウェアディスカバリツールであるPrxiPaaSが提供する依存性のインストール情報という文脈で、管理者が目標メトリックのパフォーマンスを評価するのに役立ちます。
プラクシウムはテレメトリデータを継続的に監視して異常を識別し、その後、観測された異常に関する情報をサイト信頼性エンジニア(SRE)に提供するために、最近のソフトウェアインストールに対する因果的影響を通じて根本原因分析を行う。
本稿では,Praxiumが効果的な異常検出と根本原因推定が可能であることを実証し,実用的な設定で必要となる効果的な異常検出ハイパーパラメータチューニングについて分析する。
4つの合成異常を用いた75回の総合試験では、異常検出は0.97マクロF1で一貫して実行される。
また, パッケージの設置頻度が比較的短い場合でも, 因果影響解析は異常の正しい根本原因を確実に推測することを示した。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - FC-ADL: Efficient Microservice Anomaly Detection and Localisation Through Functional Connectivity [2.994962964425238]
マイクロサービスメトリクスから異常な変更を検出し、ローカライズするための、エンドツーエンドのスケーラブルなアプローチであるFC-ADLを提案する。
提案手法は,多種多様な障害シナリオを対象としたトップ検出およびローカライゼーション性能を実現することができることを示す。
提案手法は, 最先端手法と比較して, さまざまな障害シナリオにおいて, トップ検出およびローカライズ性能を実現することができることを示す。
論文 参考訳(メタデータ) (2025-11-30T11:29:30Z) - GAL-MAD: Towards Explainable Anomaly Detection in Microservice Applications Using Graph Attention Networks [1.0136215038345013]
ネットワークとパフォーマンスの問題に起因する異常は素早く特定され、対処されなければならない。
既存の異常検出技術は統計モデルや機械学習手法に依存していることが多い。
グラフ注意とLSTMに基づくマイクロサービス異常検出(GAL-MAD)と呼ばれる新しい異常検出モデルを提案する。
論文 参考訳(メタデータ) (2025-03-31T10:11:31Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - Progressing from Anomaly Detection to Automated Log Labeling and
Pioneering Root Cause Analysis [53.24804865821692]
本研究では、ログ異常の分類を導入し、ラベル付けの課題を軽減するために、自動ラベリングについて検討する。
この研究は、根本原因分析が異常検出に続く未来を予見し、異常の根本原因を解明する。
論文 参考訳(メタデータ) (2023-12-22T15:04:20Z) - An Outlier Exposure Approach to Improve Visual Anomaly Detection
Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。
標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。
本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文 参考訳(メタデータ) (2022-09-20T15:18:13Z) - Causality-Based Multivariate Time Series Anomaly Detection [63.799474860969156]
我々は、因果的観点から異常検出問題を定式化し、多変量データを生成するための通常の因果的メカニズムに従わない事例として、異常を考察する。
次に、まずデータから因果構造を学習し、次に、あるインスタンスが局所因果機構に対して異常であるかどうかを推定する因果検出手法を提案する。
我々は、実世界のAIOpsアプリケーションに関するケーススタディと同様に、シミュレートされたデータセットとパブリックなデータセットの両方を用いて、私たちのアプローチを評価します。
論文 参考訳(メタデータ) (2022-06-30T06:00:13Z) - Sintel: A Machine Learning Framework to Extract Insights from Signals [13.04826679898367]
Sintelは、異常検出などのエンドツーエンドの時系列タスクのための機械学習フレームワークである。
Sintelは異常検出の全ジャーニーをログし、時間とともに異常の詳細なドキュメントを提供する。
ユーザは、インタラクティブな視覚化ツールを使って、信号を分析し、メソッドを比較し、異常を調査できる。
論文 参考訳(メタデータ) (2022-04-19T19:38:27Z) - Learning Dependencies in Distributed Cloud Applications to Identify and
Localize Anomalies [58.88325379746632]
本稿では、システムコンポーネントをノードとしてモデル化し、その依存関係をエッジとしてモデル化し、異常の識別と局在を改善するニューラルグラフ変換手法であるArvalusとその変種D-Arvalusを紹介します。
一連のメトリックを考えると、私たちの方法は最も可能性の高いシステム状態 - 正常または異常クラス - を予測し、異常が検出されたときにローカライズを行います。
この評価は、一般にArvalusの良好な予測性能を示し、システムコンポーネント依存性に関する情報を組み込んだD-Arvalusの利点を明らかにします。
論文 参考訳(メタデータ) (2021-03-09T06:34:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。