論文の概要: A Machine Learning Approach to Online Fault Classification in HPC
Systems
- arxiv url: http://arxiv.org/abs/2007.14241v1
- Date: Mon, 27 Jul 2020 15:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 11:36:34.507948
- Title: A Machine Learning Approach to Online Fault Classification in HPC
Systems
- Title(参考訳): HPCシステムにおけるオンライン故障分類への機械学習アプローチ
- Authors: Alessio Netti, Zeynep Kiziltan, Ozalp Babaoglu, Alina Sirbu, Andrea
Bartolini, Andrea Borghesi
- Abstract要約: 機械学習に基づくHPCシステムの故障分類手法を提案する。
当社のアプローチの斬新さは、ストリーミングされたデータをオンラインで操作できるという事実に起因しています。
我々はFINJと呼ばれる高レベルかつ使いやすい断層注入ツールを導入し、複雑な実験の管理に重点を置いている。
- 参考スコア(独自算出の注目度): 4.642153471124352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As High-Performance Computing (HPC) systems strive towards the exascale goal,
failure rates both at the hardware and software levels will increase
significantly. Thus, detecting and classifying faults in HPC systems as they
occur and initiating corrective actions before they can transform into failures
becomes essential for continued operation. Central to this objective is fault
injection, which is the deliberate triggering of faults in a system so as to
observe their behavior in a controlled environment. In this paper, we propose a
fault classification method for HPC systems based on machine learning. The
novelty of our approach rests with the fact that it can be operated on streamed
data in an online manner, thus opening the possibility to devise and enact
control actions on the target system in real-time. We introduce a high-level,
easy-to-use fault injection tool called FINJ, with a focus on the management of
complex experiments. In order to train and evaluate our machine learning
classifiers, we inject faults to an in-house experimental HPC system using
FINJ, and generate a fault dataset which we describe extensively. Both FINJ and
the dataset are publicly available to facilitate resiliency research in the HPC
systems field. Experimental results demonstrate that our approach allows almost
perfect classification accuracy to be reached for different fault types with
low computational overhead and minimal delay.
- Abstract(参考訳): HPC(High-Performance Computing)システムが大規模目標に向かっているため、ハードウェアとソフトウェアレベルでの障害率は大幅に増加する。
したがって、HPCシステムにおける障害の発生を検知し分類し、障害に変換する前に修正動作を開始することは、継続的な操作に不可欠である。
この目的の中心はフォールトインジェクションであり、システム内の障害を意図的に引き起こし、制御された環境でその挙動を観察することである。
本稿では,機械学習に基づくHPCシステムの故障分類手法を提案する。
当社のアプローチの目新しさは,ストリーミングデータをオンライン形式で操作できる点にある。これにより,ターゲットシステム上でリアルタイムに制御アクションを考案し,実施する可能性を開くことができる。
我々はFINJと呼ばれる高レベルかつ使いやすい断層注入ツールを導入し、複雑な実験の管理に重点を置いている。
機械学習分類器を訓練し評価するために、FINJを用いて社内実験HPCシステムに障害を注入し、広範囲に記述した障害データセットを生成する。
FINJとデータセットはいずれも、HPCシステム分野におけるレジリエンス研究を促進するために公開されている。
実験の結果, 計算オーバーヘッドが低く遅延の少ない異なる故障タイプに対して, ほぼ完璧に分類できることがわかった。
関連論文リスト
- Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Effective Intrusion Detection in Heterogeneous Internet-of-Things Networks via Ensemble Knowledge Distillation-based Federated Learning [52.6706505729803]
我々は、分散化された侵入検知システムの共有モデル(IDS)を協調訓練するために、フェデレートラーニング(FL)を導入する。
FLEKDは従来のモデル融合法よりも柔軟な凝集法を実現する。
実験の結果,提案手法は,速度と性能の両面で,局所訓練と従来のFLよりも優れていた。
論文 参考訳(メタデータ) (2024-01-22T14:16:37Z) - Unsupervised Learning for Fault Detection of HVAC Systems: An OPTICS
-based Approach for Terminal Air Handling Units [1.0878040851638]
本研究では,ターミナルエアハンドリングユニットとその関連システムにおける故障を検出するための教師なし学習戦略を提案する。
この手法は、主成分分析を用いて歴史的センサデータを前処理して次元を合理化する。
その結果,オプティクスは季節ごとの精度で常にk平均を上回っていた。
論文 参考訳(メタデータ) (2023-12-18T18:08:54Z) - Controlling dynamical systems to complex target states using machine
learning: next-generation vs. classical reservoir computing [68.8204255655161]
機械学習を用いた非線形力学系の制御は、システムを周期性のような単純な振る舞いに駆動するだけでなく、より複雑な任意の力学を駆動する。
まず, 従来の貯水池計算が優れていることを示す。
次のステップでは、これらの結果を異なるトレーニングデータに基づいて比較し、代わりに次世代貯水池コンピューティングを使用する別のセットアップと比較する。
その結果、通常のトレーニングデータに対して同等のパフォーマンスを提供する一方で、次世代RCは、非常に限られたデータしか利用できない状況において、著しくパフォーマンスが向上していることがわかった。
論文 参考訳(メタデータ) (2023-07-14T07:05:17Z) - A hybrid feature learning approach based on convolutional kernels for
ATM fault prediction using event-log data [5.859431341476405]
イベントログデータから特徴を抽出するために,畳み込みカーネル(MiniROCKETとHYDRA)に基づく予測モデルを提案する。
提案手法は,実世界の重要な収集データセットに適用される。
このモデルは、ATMのタイムリーなメンテナンスにおいてオペレータをサポートするコンテナベースの意思決定支援システムに統合された。
論文 参考訳(メタデータ) (2023-05-17T08:55:53Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - Online Dictionary Learning Based Fault and Cyber Attack Detection for
Power Systems [4.657875410615595]
本稿では,ストリームデータマイニング分類器を活用することで,イベント検出と侵入検出の問題に対処する。
まず、ラベルのないデータから高レベルな特徴を学習して辞書を構築する。
そして、ラベル付きデータは、学習した辞書原子の疎線形結合として表現される。
我々は、これらの余分なコードを利用して、オンライン分類器と効率的な変更検出器を訓練する。
論文 参考訳(メタデータ) (2021-08-24T23:17:58Z) - Detection of Dataset Shifts in Learning-Enabled Cyber-Physical Systems
using Variational Autoencoder for Regression [1.5039745292757671]
回帰問題に対してデータセットシフトを効果的に検出する手法を提案する。
提案手法は帰納的共形異常検出に基づいており,回帰モデルに変分オートエンコーダを用いる。
自動運転車用オープンソースシミュレータに実装された高度緊急ブレーキシステムを用いて,本手法を実証する。
論文 参考訳(メタデータ) (2021-04-14T03:46:37Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Assurance Monitoring of Cyber-Physical Systems with Machine Learning
Components [2.1320960069210484]
我々は,サイバー物理システムの保証監視にコンフォメーション予測フレームワークを使用する方法について検討する。
リアルタイムに高次元入力を処理するために,学習モデルの埋め込み表現を用いて非整合性スコアを計算する。
整合性予測を活用することで、この手法は十分に校正された信頼性を提供し、限定された小さなエラー率を保証する監視を可能にする。
論文 参考訳(メタデータ) (2020-01-14T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。