論文の概要: A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of
Multifidelity HPC Systems
- arxiv url: http://arxiv.org/abs/2306.09457v1
- Date: Thu, 15 Jun 2023 19:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 16:09:18.783911
- Title: A Multi-Level, Multi-Scale Visual Analytics Approach to Assessment of
Multifidelity HPC Systems
- Title(参考訳): 多階層HPCシステム評価のためのマルチレベル・マルチスケールビジュアル分析手法
- Authors: Shilpika, Bethany Lusch, Murali Emani, Filippo Simini, Venkatram
Vishwanath, Michael E. Papka, and Kwan-Liu Ma
- Abstract要約: ハードウェアシステムのイベントと振る舞いは、システムの堅牢性と信頼性を改善するために不可欠である。
本研究では,このような膨大なデータを理解するための総合分析システムの構築を目指す。
このエンド・ツー・エンドのログ分析システムとビジュアル・アナリティクス・サポートが組み合わさって、ユーザーはスーパーコンピュータの使用状況やエラーパターンを素早く抽出できる。
- 参考スコア(独自算出の注目度): 17.246865176910045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to monitor and interpret of hardware system events and behaviors
are crucial to improving the robustness and reliability of these systems,
especially in a supercomputing facility. The growing complexity and scale of
these systems demand an increase in monitoring data collected at multiple
fidelity levels and varying temporal resolutions. In this work, we aim to build
a holistic analytical system that helps make sense of such massive data, mainly
the hardware logs, job logs, and environment logs collected from disparate
subsystems and components of a supercomputer system. This end-to-end log
analysis system, coupled with visual analytics support, allows users to glean
and promptly extract supercomputer usage and error patterns at varying temporal
and spatial resolutions. We use multiresolution dynamic mode decomposition
(mrDMD), a technique that depicts high-dimensional data as correlated
spatial-temporal variations patterns or modes, to extract variation patterns
isolated at specified frequencies. Our improvements to the mrDMD algorithm help
promptly reveal useful information in the massive environment log dataset,
which is then associated with the processed hardware and job log datasets using
our visual analytics system. Furthermore, our system can identify the usage and
error patterns filtered at user, project, and subcomponent levels. We exemplify
the effectiveness of our approach with two use scenarios with the Cray XC40
supercomputer.
- Abstract(参考訳): ハードウェアシステムのイベントや動作を監視し解釈する能力は、特にスーパーコンピューティング設備において、これらのシステムのロバスト性と信頼性を向上させる上で重要である。
これらのシステムの複雑さと規模の増加は、複数の忠実度レベルと異なる時間分解能で収集された監視データの増加を要求する。
本研究では,ハードウェアログやジョブログ,スーパーコンピュータシステムの異なるサブシステムやコンポーネントから収集された環境ログなど,膨大なデータを理解するための総合的な分析システムを構築することを目的とする。
このエンドツーエンドのログ分析システムは、ビジュアルアナリティクスのサポートと合わせて、時間的および空間的な解像度の異なるスーパーコンピュータの使用状況やエラーパターンを、迅速かつ明瞭に抽出する。
高次元データを相関した空間-時間変動パターンやモードとして表現する手法であるマルチレゾリューション動的モード分解(mrdmd)を用いて,特定の周波数で分離した変動パターンを抽出する。
mrDMDアルゴリズムの改良は、大規模環境ログデータセットに有用な情報を明らかにするのに役立ち、処理されたハードウェアやジョブログデータセットに視覚分析システムを用いて関連付ける。
さらに,本システムでは,ユーザ,プロジェクト,サブコンポーネントレベルでフィルタされた使用状況とエラーパターンを識別できる。
我々は,Cray XC40スーパーコンピュータを用いた2つのユースケースを用いたアプローチの有効性を実証する。
関連論文リスト
- Ensemble Method for System Failure Detection Using Large-Scale Telemetry Data [0.0]
本研究では,システム故障検出のためのアンサンブル手法を提案する。
提案手法では,Long Short-Term Memory (LSTM) ネットワーク,アイソレーションフォレスト,ワンクラスサポートベクターマシン (OCSVM) ,ローカル・オブリアー因子 (LOF) など,多様なアルゴリズムを統合する。
実験により,本モデルの顕著な有効性を示し,システム障害の同定に顕著な検出率を達成した。
論文 参考訳(メタデータ) (2024-06-07T06:35:17Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - GLAD: Content-aware Dynamic Graphs For Log Anomaly Detection [49.9884374409624]
GLADは、システムログの異常を検出するように設計されたグラフベースのログ異常検出フレームワークである。
システムログの異常を検出するために設計されたグラフベースのログ異常検出フレームワークであるGLADを紹介する。
論文 参考訳(メタデータ) (2023-09-12T04:21:30Z) - InVAErt networks: a data-driven framework for model synthesis and
identifiability analysis [0.0]
inVAErtは物理システムのデータ駆動分析と合成のためのフレームワークである。
これは、前方および逆写像を表す決定論的デコーダ、系の出力の確率分布を捉える正規化フロー、入力と出力の間の単射性の欠如についてコンパクトな潜在表現を学ぶ変分エンコーダを使用する。
論文 参考訳(メタデータ) (2023-07-24T07:58:18Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - A Hierarchical Approach to Conditional Random Fields for System Anomaly
Detection [0.8164433158925593]
大規模システムにおける異常事象を認識する異常検出は多くの産業において重要である。
階層的なアプローチは、複雑なシステムと局所的な文脈における暗黙の関係を利用する。
論文 参考訳(メタデータ) (2022-10-26T21:02:47Z) - Lightweight Automated Feature Monitoring for Data Streams [1.4658400971135652]
そこで本稿では,データドリフトを検出するFM(Feature Monitoring)システムを提案する。
システムは、システムによって使用されるすべての機能を監視し、アラームが発生するたびにランク付けされる解釈可能な機能を提供します。
これは、FMが特定のタイプの問題を検出するためにカスタムシグナルを追加する必要をなくし、利用可能な機能の空間を監視するのに十分であることを示している。
論文 参考訳(メタデータ) (2022-07-18T14:38:11Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - DeepTimeAnomalyViz: A Tool for Visualizing and Post-processing Deep
Learning Anomaly Detection Results for Industrial Time-Series [88.12892448747291]
DeTAVIZ インタフェースは Web ブラウザをベースとした可視化ツールで,特定の問題における DL ベースの異常検出の実現可能性の迅速な探索と評価を行う。
DeTAVIZを使えば、ユーザーは複数のポスト処理オプションを簡単かつ迅速に繰り返し、異なるモデルを比較することができ、選択したメトリックに対して手動で最適化できる。
論文 参考訳(メタデータ) (2021-09-21T10:38:26Z) - RGB-D Railway Platform Monitoring and Scene Understanding for Enhanced
Passenger Safety [3.4298729855744026]
本稿では,人間を地上平面上で検出し追跡するための柔軟な解析手法を提案する。
我々は、RGBと深度に基づく検出と追跡の複数の組み合わせについて検討する。
その結果,奥行きに基づく空間情報と学習表現の組み合わせにより,検出精度と追跡精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-02-23T14:44:34Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。