論文の概要: Ensemble Method for System Failure Detection Using Large-Scale Telemetry Data
- arxiv url: http://arxiv.org/abs/2407.00048v1
- Date: Fri, 7 Jun 2024 06:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:43:41.764503
- Title: Ensemble Method for System Failure Detection Using Large-Scale Telemetry Data
- Title(参考訳): 大規模テレメトリデータを用いたシステム故障検出のためのアンサンブル法
- Authors: Priyanka Mudgal, Rita H. Wouhaybi,
- Abstract要約: 本研究では,システム故障検出のためのアンサンブル手法を提案する。
提案手法では,Long Short-Term Memory (LSTM) ネットワーク,アイソレーションフォレスト,ワンクラスサポートベクターマシン (OCSVM) ,ローカル・オブリアー因子 (LOF) など,多様なアルゴリズムを統合する。
実験により,本モデルの顕著な有効性を示し,システム障害の同定に顕著な検出率を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing reliance on computer systems, particularly personal computers (PCs), necessitates heightened reliability to uphold user satisfaction. This research paper presents an in-depth analysis of extensive system telemetry data, proposing an ensemble methodology for detecting system failures. Our approach entails scrutinizing various parameters of system metrics, encompassing CPU utilization, memory utilization, disk activity, CPU temperature, and pertinent system metadata such as system age, usage patterns, core count, and processor type. The proposed ensemble technique integrates a diverse set of algorithms, including Long Short-Term Memory (LSTM) networks, isolation forests, one-class support vector machines (OCSVM), and local outlier factors (LOF), to effectively discern system failures. Specifically, the LSTM network with other machine learning techniques is trained on Intel Computing Improvement Program (ICIP) telemetry software data to distinguish between normal and failed system patterns. Experimental evaluations demonstrate the remarkable efficacy of our models, achieving a notable detection rate in identifying system failures. Our research contributes to advancing the field of system reliability and offers practical insights for enhancing user experience in computing environments.
- Abstract(参考訳): コンピュータシステム、特にパーソナルコンピュータ(PC)への依存度が高まっているため、ユーザの満足度を維持するために信頼性を高める必要がある。
本研究では,システム故障検出のためのアンサンブル手法を提案する。
提案手法では,CPU利用,メモリ利用,ディスク活動,CPU温度,システム年齢,使用パターン,コア数,プロセッサタイプといった関連するシステムメタデータを含む,システムメトリクスのさまざまなパラメータを精査する。
提案手法は,Long Short-Term Memory(LSTM)ネットワーク,分離林,一級サポートベクターマシン(OCSVM),局所異常要因(LOF)など,多様なアルゴリズムを統合し,システム障害を効果的に識別する。
具体的には、他の機械学習技術を備えたLSTMネットワークは、通常のシステムパターンと失敗したシステムパターンを区別するために、Intel Computing Improvement Program (ICIP)テレメトリソフトウェアデータに基づいて訓練される。
実験により,本モデルの顕著な有効性を示し,システム障害の同定に顕著な検出率を達成した。
本研究は,システムの信頼性向上に寄与し,コンピューティング環境におけるユーザエクスペリエンス向上のための実践的な洞察を提供する。
関連論文リスト
- Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文 参考訳(メタデータ) (2024-01-22T14:16:37Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of
Multifidelity HPC Systems [17.246865176910045]
ハードウェアシステムのイベントと振る舞いは、システムの堅牢性と信頼性を改善するために不可欠である。
本研究では,このような膨大なデータを理解するための総合分析システムの構築を目指す。
このエンド・ツー・エンドのログ分析システムとビジュアル・アナリティクス・サポートが組み合わさって、ユーザーはスーパーコンピュータの使用状況やエラーパターンを素早く抽出できる。
論文 参考訳(メタデータ) (2023-06-15T19:23:50Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文 参考訳(メタデータ) (2021-10-21T20:30:12Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Multi Agent System for Machine Learning Under Uncertainty in Cyber
Physical Manufacturing System [78.60415450507706]
近年の予測機械学習の進歩は、製造における様々なユースケースに応用されている。
ほとんどの研究は、それに関連する不確実性に対処することなく予測精度を最大化することに焦点を当てた。
本稿では,機械学習における不確実性の原因を特定し,不確実性下での機械学習システムの成功基準を確立する。
論文 参考訳(メタデータ) (2021-07-28T10:28:05Z) - Monitoring and Diagnosability of Perception Systems [21.25149064251918]
本稿では,認識システムにおける実行時モニタリングと故障検出と識別のための数学的モデルを提案する。
本稿では,LGSVL自動運転シミュレータとApollo Auto自動運転ソフトウェアスタックを用いた実写シミュレーションにおいて,PerSySと呼ばれるモニタリングシステムを実演する。
論文 参考訳(メタデータ) (2020-11-11T23:03:14Z) - A Comparative Study of AI-based Intrusion Detection Techniques in
Critical Infrastructures [4.8041243535151645]
本稿では,重要なアプリケーションを追跡する無線接続型センサに対するAI駆動の侵入検知システムについて比較検討する。
具体的には、収集したトラフィックの侵入行動を認識するために、機械学習、深層学習、強化学習ソリューションの使用について、詳細な分析を行う。
その結果、Adaptively SupervisedおよびClustered Hybrid IDS、Boltzmann MachineベースのClustered IDS、Q-learningベースのIDSの3つの異なるIDSのパフォーマンス指標が示された。
論文 参考訳(メタデータ) (2020-07-24T20:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。