論文の概要: I/O Burst Prediction for HPC Clusters using Darshan Logs
- arxiv url: http://arxiv.org/abs/2308.10311v1
- Date: Sun, 20 Aug 2023 16:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 16:08:07.604643
- Title: I/O Burst Prediction for HPC Clusters using Darshan Logs
- Title(参考訳): darshanログを用いたhpcクラスタのi/oバースト予測
- Authors: Ehsan Saeedizade, Roya Taheri, Engin Arslan
- Abstract要約: 本稿では,3台のスーパーコンピュータからのDarshanレポートを分析し,システムレベルの読み書きI/Oレートを5分間隔で抽出する。
我々は機械学習モデルをトレーニングし、システムレベルのI/Oバーストの発生を5分から120分前に見積もる。
I/Oバーストの度合いを推定すると,MLモデルは70%以上の精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 3.610854299879284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding cluster-wide I/O patterns of large-scale HPC clusters is
essential to minimize the occurrence and impact of I/O interference. Yet, most
previous work in this area focused on monitoring and predicting task and
node-level I/O burst events. This paper analyzes Darshan reports from three
supercomputers to extract system-level read and write I/O rates in five minutes
intervals. We observe significant (over 100x) fluctuations in read and write
I/O rates in all three clusters. We then train machine learning models to
estimate the occurrence of system-level I/O bursts 5 - 120 minutes ahead.
Evaluation results show that we can predict I/O bursts with more than 90%
accuracy (F-1 score) five minutes ahead and more than 87% accuracy two hours
ahead. We also show that the ML models attain more than 70% accuracy when
estimating the degree of the I/O burst. We believe that high-accuracy
predictions of I/O bursts can be used in multiple ways, such as postponing
delay-tolerant I/O operations (e.g., checkpointing), pausing nonessential
applications (e.g., file system scrubbers), and devising I/O-aware job
scheduling methods. To validate this claim, we simulated a burst-aware job
scheduler that can postpone the start time of applications to avoid I/O bursts.
We show that the burst-aware job scheduling can lead to an up to 5x decrease in
application runtime.
- Abstract(参考訳): 大規模HPCクラスタにおけるクラスタワイドI/Oパターンの理解は、I/O干渉の発生と影響を最小限にするために不可欠である。
しかし、この分野の以前の作業のほとんどは、タスクとノードレベルのi/oバーストイベントの監視と予測に重点を置いていた。
本稿では,3台のスーパーコンピュータからのDarshanレポートを分析し,システムレベルの読み書き速度を5分間隔で抽出する。
3つのクラスタすべてにおいて,読み書きi/oレートの有意な変動(100倍以上)を観測した。
次に、システムレベルのi/oバーストの発生を5分から120分前に見積もる機械学習モデルをトレーニングする。
その結果,5分前に90%以上の精度(F-1スコア),2時間前に87%以上の精度でI/Oバーストを予測できることがわかった。
また,I/Oバーストの程度を推定すると,MLモデルの精度が70%以上になることを示した。
I/Oバーストの高精度な予測は、遅延耐性のあるI/O操作(例えば、チェックポインティング)の延期、無意味なアプリケーション(例えば、ファイルシステムスクラバ)の一時停止、I/O対応ジョブスケジューリング手法の考案など、複数の方法で利用できると我々は考えている。
この主張を検証するために,アプリケーション開始時刻を延期してI/Oバーストを回避するバースト対応ジョブスケジューラをシミュレーションした。
バースト対応のジョブスケジューリングは、アプリケーションランタイムの最大5倍の削減につながる可能性がある。
関連論文リスト
- FM-TS: Flow Matching for Time Series Generation [71.31148785577085]
本稿では、時系列生成のための修正フローマッチングベースのフレームワークFM-TSを紹介する。
FM-TSは、トレーニングと推論の点でより効率的である。
我々は、太陽予測とMuJoCo計算タスクにおいて優れた性能を達成した。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Predicting Overtakes in Trucks Using CAN Data [51.28632782308621]
CANデータからトラックの積載量の検出について検討する。
私たちの分析では、オーバーテイクイベントの最大10秒前をカバーしています。
我々は、オーバーテイク・トリガーに近づくと、オーバーテイク・クラスの予測スコアが増加する傾向にあることを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:58:22Z) - Monitoring Machine Learning Forecasts for Platform Data Streams [2.474754293747645]
デジタルプラットフォームは、突然のパフォーマンス低下に対応するために、大規模な予測フレームワークを必要とします。
本稿では,MLアルゴリズムを再トレーニングする際の問題に答えるために,データ駆動型モニタリング手法を提案する。
モニタベースのリトレーニングは、実行可能なベンチマークと比較して正確な予測を生成する。
論文 参考訳(メタデータ) (2024-01-17T11:37:38Z) - A Machine Learning Outlook: Post-processing of Global Medium-range
Forecasts [0.0]
後処理は通常、数値気象予測(NWP)モデルの出力を受け取り、線形統計手法を適用する。
本研究では, 温度850hPaで7日間の予測において, 最大12%(RMSE)の精度向上を達成できることを示す。
我々は、ルート平均二乗誤差 (RMSE) や異常相関係数 (ACC) といった標準メトリクスを使用する際の課題について議論する。
論文 参考訳(メタデータ) (2023-03-28T20:48:01Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - GCNScheduler: Scheduling Distributed Computing Applications using Graph
Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。
タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。
従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文 参考訳(メタデータ) (2021-10-22T01:54:10Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z) - Sub-seasonal forecasting with a large ensemble of deep-learning weather
prediction models [6.882042556551611]
深層学習天気予報(DLWP)モデルを用いたアンサンブル予測システムを提案する。
このモデルは、立方体球格子上の畳み込みニューラルネットワーク(CNN)を用いて、グローバルな予測を生成する。
エンサンブルスプレッドは、主に32のDLWPモデルを作成するためにCNNトレーニングプロセスのランダム化によって生成される。
論文 参考訳(メタデータ) (2021-02-09T20:14:43Z) - Evaluating Machine Learning Models for the Fast Identification of
Contingency Cases [0.0]
電力フロー結果の高速な近似は、電力系統計画と実運用において有益である。
計画においては、複数年ごとに数百万の電力フロー計算が必要であり、異なる制御戦略や緊急ポリシーを考慮する必要がある。
ライブ操作では、グリッドオペレータは、グリッド状態が短時間で緊急要求に準拠するかどうかを評価する必要がある。
論文 参考訳(メタデータ) (2020-08-21T09:24:57Z) - Superiority of Simplicity: A Lightweight Model for Network Device
Workload Prediction [58.98112070128482]
本稿では,歴史観測に基づく時系列予測のための軽量な解を提案する。
ニューラルネットワークと平均予測器という2つのモデルからなる異種アンサンブル法で構成されている。
利用可能なFedCSIS 2020チャレンジデータセットの総合的なR2$スコア0.10を達成している。
論文 参考訳(メタデータ) (2020-07-07T15:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。