論文の概要: eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2506.02007v2
- Date: Tue, 01 Jul 2025 11:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.107073
- Title: eACGM: Non-instrumented Performance Tracing and Anomaly Detection towards Machine Learning Systems
- Title(参考訳): eACGM: 機械学習システムに向けた非構成性能追跡と異常検出
- Authors: Ruilin Xu, Zongxuan Xie, Pengfei Chen,
- Abstract要約: eACGMは、eBPFに基づいたフルスタックのAI/MLシステム監視フレームワークである。
eACGMはGPUやネットワーク通信層など、主要なハードウェアコンポーネントからリアルタイムのパフォーマンスデータを収集する。
- 参考スコア(独自算出の注目度): 4.745002208778503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present eACGM, a full-stack AI/ML system monitoring framework based on eBPF. eACGM collects real-time performance data from key hardware components, including the GPU and network communication layer, as well as from key software stacks such as CUDA, Python, and PyTorch, all without requiring any code instrumentation or modifications. Additionally, it leverages libnvml to gather process-level GPU resource usage information. By applying a Gaussian Mixture Model (GMM) to the collected multidimensional performance metrics for statistical modeling and clustering analysis, eACGM effectively identifies complex failure modes, such as latency anomalies, hardware failures, and communication inefficiencies, enabling rapid diagnosis of system bottlenecks and abnormal behaviors. To evaluate eACGM's effectiveness and practicality, we conducted extensive empirical studies and case analyses in multi-node distributed training scenarios. The results demonstrate that eACGM, while maintaining a non-intrusive and low-overhead profile, successfully captures critical performance anomalies during model training and inference. Its stable anomaly detection performance and comprehensive monitoring capabilities validate its applicability and scalability in real-world production environments, providing strong support for performance optimization and fault diagnosis in large-scale AI/ML systems.
- Abstract(参考訳): eBPFに基づいたフルスタックAI/MLシステム監視フレームワークであるeACGMを提案する。
eACGMはGPUやネットワーク通信層を含む主要なハードウェアコンポーネントやCUDA、Python、PyTorchといった主要なソフトウェアスタックからリアルタイムのパフォーマンスデータを収集する。
さらに、libnvmlを活用して、プロセスレベルのGPUリソース使用情報を集める。
統計的モデリングとクラスタリング分析のために収集された多次元パフォーマンス指標にガウス混合モデル(GMM)を適用することで、eACGMは遅延異常、ハードウェア故障、通信不効率などの複雑な障害モードを効果的に識別し、システムのボトルネックや異常な動作の迅速な診断を可能にする。
eACGMの有効性と実用性を評価するため,多ノード分散トレーニングシナリオにおける広範な実験研究と事例分析を行った。
その結果,eACGMは非侵襲的かつ低オーバヘッドプロファイルを維持しながら,モデルトレーニングや推論において重要な性能異常を捉えることができた。
その安定した異常検出性能と包括的な監視能力は、実運用環境での適用性とスケーラビリティを検証し、大規模AI/MLシステムにおけるパフォーマンス最適化と障害診断の強力なサポートを提供する。
関連論文リスト
- Distributed Log-driven Anomaly Detection System based on Evolving Decision Making [4.183506125389502]
CEDLogは、Apache AirflowとDaskを統合することで、スケーラブルな処理のために分散コンピューティングを実装するフレームワークである。
CEDLogでは、イベントログに存在する重要な特徴を用いて、多層パーセプトロン(MLP)とグラフ畳み込みネットワーク(GCN)の合成によって異常を検出する。
論文 参考訳(メタデータ) (2025-04-03T06:50:30Z) - GAL-MAD: Towards Explainable Anomaly Detection in Microservice Applications Using Graph Attention Networks [1.0136215038345013]
ネットワークとパフォーマンスの問題に起因する異常は素早く特定され、対処されなければならない。
既存の異常検出技術は統計モデルや機械学習手法に依存していることが多い。
グラフ注意とLSTMに基づくマイクロサービス異常検出(GAL-MAD)と呼ばれる新しい異常検出モデルを提案する。
論文 参考訳(メタデータ) (2025-03-31T10:11:31Z) - Large-Scale Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
ローカル推論戦略を用いることで、我々のアプローチは変数数に線形な複雑さを伴ってスケールし、数千の変数に効率的にスケールアップする。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Practical Anomaly Detection over Multivariate Monitoring Metrics for
Online Services [29.37493773435177]
CMAnomalyは、協調マシンに基づく多変量モニタリングメトリクスの異常検出フレームワークである。
提案するフレームワークは,Huawei Cloudの大規模オンラインサービスシステムから収集した公開データと産業データの両方で広く評価されている。
最先端のベースラインモデルと比較して、CMAnomalyは平均F1スコア0.9494を達成し、ベースラインの6.77%から10.68%を上回り、10倍から20倍速く走る。
論文 参考訳(メタデータ) (2023-08-19T08:08:05Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Real-World Anomaly Detection by using Digital Twin Systems and
Weakly-Supervised Learning [3.0100975935933567]
本稿では, 産業環境における異常検出に対する弱い制御手法を提案する。
これらのアプローチでは、Digital Twinを使用して、機械の通常の動作をシミュレートするトレーニングデータセットを生成する。
提案手法の性能を,実世界のデータセットに応用した様々な最先端の異常検出アルゴリズムと比較した。
論文 参考訳(メタデータ) (2020-11-12T10:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。