論文の概要: Predicting batch queue job wait times for informed scheduling of urgent
HPC workloads
- arxiv url: http://arxiv.org/abs/2204.13543v1
- Date: Thu, 28 Apr 2022 14:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 14:49:58.038473
- Title: Predicting batch queue job wait times for informed scheduling of urgent
HPC workloads
- Title(参考訳): 緊急HPCワークロードの情報スケジューリングのためのバッチキュー待ち時間予測
- Authors: Nick Brown, Gordon Gibb, Evgenij Belikov, Rupert Nash
- Abstract要約: 本研究では,待ち時間予測のための新しい機械学習手法について検討する。
我々はこれらの予測をSlurmが生成した推定値と比較する。
我々の手法は、実際の開始時間の10分以内に、すべてのジョブの4分の3の開始時間を正確に予測できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is increasing interest in the use of HPC machines for urgent workloads
to help tackle disasters as they unfold. Whilst batch queue systems are not
ideal in supporting such workloads, many disadvantages can be worked around by
accurately predicting when a waiting job will start to run. However there are
numerous challenges in achieving such a prediction with high accuracy, not
least because the queue's state can change rapidly and depend upon many
factors. In this work we explore a novel machine learning approach for
predicting queue wait times, hypothesising that such a model can capture the
complex behaviour resulting from the queue policy and other interactions to
generate accurate job start times.
For ARCHER2 (HPE Cray EX), Cirrus (HPE 8600) and 4-cabinet (HPE Cray EX) we
explore how different machine learning approaches and techniques improve the
accuracy of our predictions, comparing against the estimation generated by
Slurm. We demonstrate that our techniques deliver the most accurate predictions
across our machines of interest, with the result of this work being the ability
to predict job start times within one minute of the actual start time for
around 65\% of jobs on ARCHER2 and 4-cabinet, and 76\% of jobs on Cirrus. When
compared against what Slurm can deliver, this represents around 3.8 times
better accuracy on ARCHER2 and 18 times better for Cirrus. Furthermore our
approach can accurately predicting the start time for three quarters of all job
within ten minutes of the actual start time on ARCHER2 and 4-cabinet, and for
90\% of jobs on Cirrus. Whilst the driver of this work has been to better
facilitate placement of urgent workloads across HPC machines, the insights
gained can be used to provide wider benefits to users and also enrich existing
batch queue systems and inform policy too.
- Abstract(参考訳): 災害への対処に役立つ緊急作業用のhpcマシンの利用への関心が高まっている。
バッチキューシステムはこのようなワークロードをサポートするのに理想的ではないが、待機ジョブの実行開始時期を正確に予測することで、多くのデメリットを回避できる。
しかし、キューの状態が急速に変化し、多くの要因に依存するため、高い精度でそのような予測を達成するには多くの課題がある。
本研究では,待ち時間予測のための新しい機械学習手法について検討し,待ち行列のポリシやその他のインタラクションから生じる複雑な振る舞いをキャプチャして,ジョブ開始時間を正確に生成できると仮定する。
本稿では,ARCHER2 (HPE Cray EX), Cirrus (HPE 8600), 4-cabinet (HPE Cray EX) について,Slurm が生成した推定値と比較して,機械学習のアプローチとテクニックの違いによる予測精度の向上について検討する。
この研究の結果、ARCHER2と4-cabinetのジョブの65%、Cirrusのジョブの66%に対して、実際の開始時間の1分以内のジョブ開始時間を予測できるようになりました。
Slurmが提供できるものと比較すると、ARCHER2の3.8倍、Cirrusの18倍の精度を示している。
さらに,本手法はARCHER2と4-cabinetの実際の開始から10分以内に全ジョブの4分の3の開始時刻を正確に予測し,Cirrusの90%のジョブを予測できる。
この作業の原動力は、hpcマシンにまたがる緊急ワークロードの配置をより容易にすることにあるが、得られた洞察は、ユーザに対してより広範なメリットを提供し、既存のバッチキューシステムとインフォメーションポリシの強化にも利用できる。
関連論文リスト
- SkipPredict: When to Invest in Predictions for Scheduling [10.895221249490984]
そこで本研究では,予測手法であるSkipPredict(SkipPredict)を導入し,そのコストに対処する手法を提案する。
これを実現するために、ジョブを短くも長くも分類するために、1ビットの“チープ予測”を使用します。
2つの異なるモデルに対して、このコストが与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-05T22:24:19Z) - Sibyl: Forecasting Time-Evolving Query Workloads [9.16115447503004]
データベースシステムは、しばしば、ワークロードベースのパフォーマンスチューニングを実行するために、過去のクエリトレースに依存する。
実運用ワークロードは、時間的進化であり、将来のワークロードを最適化する上で、過去のクエリを非効率にする。
SIBYLはエンド・ツー・エンドの機械学習ベースのフレームワークで、将来的なクエリの順序を正確に予測する。
論文 参考訳(メタデータ) (2024-01-08T08:11:32Z) - Sinkhorn-Flow: Predicting Probability Mass Flow in Dynamical Systems
Using Optimal Transport [89.61692654941106]
そこで本稿では, 最適な輸送手段を用いて, 時間とともにそのような物質流を予測する新しい手法を提案する。
我々は、ソーシャルネットワークの設定において、コミュニティがどのように進化していくかを予測するタスクに、我々のアプローチを適用した。
論文 参考訳(メタデータ) (2023-03-14T07:25:44Z) - Acela: Predictable Datacenter-level Maintenance Job Scheduling [27.990173338574138]
本稿では,維持作業期間を予測する機械学習システムであるAcelaを紹介する。
Acela はオフラインのサーバ数を 1.87-4.28X に減らし,サーバのオフライン時間を 1.40-2.80X に減らした。
論文 参考訳(メタデータ) (2022-12-10T00:22:49Z) - Learning While Scheduling in Multi-Server Systems with Unknown
Statistics: MaxWeight with Discounted UCB [18.898514227870926]
本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。
目標は、処理時間の統計を知ることなく、サーバ上のジョブをスケジュールすることだ。
我々は,MaxWeightスケジューリングポリシと割引された高信頼度境界(UCB)を組み合わせることで,統計を同時に学習し,ジョブをサーバにスケジュールするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-02T15:37:02Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - NURD: Negative-Unlabeled Learning for Online Datacenter Straggler
Prediction [17.346001585453415]
タスクが完了するとタスクが完了するので、ストラグラーはパフォーマンスの大きな障害になります。
本稿では,再重み付けと分散補償を併用した新しい負非ラベル学習手法であるNURDを提案する。
NURDをGoogleとAlibabaの2つの製品トレースで評価する。
論文 参考訳(メタデータ) (2022-03-16T01:15:50Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z) - Clinical Risk Prediction with Temporal Probabilistic Asymmetric
Multi-Task Learning [80.66108902283388]
マルチタスク学習手法は、臨床リスク予測などの安全クリティカルな応用に注意を払って使用すべきである。
既存の非対称なマルチタスク学習手法は、低損失のタスクから高損失のタスクへの知識伝達を行うことにより、この負の伝達問題に対処する。
特徴レベルの不確実性に基づいて,特定のタスク/タイムステップから関連する不確実なタスクへの知識伝達を行う,新しい時間的非対称型マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2020-06-23T06:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。