論文の概要: Online Job Failure Prediction in an HPC System
- arxiv url: http://arxiv.org/abs/2308.15481v1
- Date: Fri, 30 Jun 2023 07:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:06:52.471666
- Title: Online Job Failure Prediction in an HPC System
- Title(参考訳): HPCシステムにおけるオンラインジョブエラー予測
- Authors: Francesco Antici, Andrea Borghesi, and Zeynep Kiziltan
- Abstract要約: この研究は、イタリアのHPCセンターCINECAでホストされている生産機械から抽出されたデータセットに基づいている。
実行中に失敗するジョブは、他のジョブを遅らせる可能性のあるリソースを不必要に占有し、システムのパフォーマンスとエネルギー消費に悪影響を及ぼした。
我々の斬新さは、(i)これらのアルゴリズムと自然言語処理(NLP)ツールを組み合わせることで、ジョブを表現し、(ii)実際のシステムでオンライン方式で作業するためのアプローチの設計にあります。
- 参考スコア(独自算出の注目度): 2.2284709230738544
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern High Performance Computing (HPC) systems are complex machines, with
major impacts on economy and society. Along with their computational
capability, their energy consumption is also steadily raising, representing a
critical issue given the ongoing environmental and energetic crisis. Therefore,
developing strategies to optimize HPC system management has paramount
importance, both to guarantee top-tier performance and to improve energy
efficiency. One strategy is to act at the workload level and highlight the jobs
that are most likely to fail, prior to their execution on the system. Jobs
failing during their execution unnecessarily occupy resources which could delay
other jobs, adversely affecting the system performance and energy consumption.
In this paper, we study job failure prediction at submit-time using classical
machine learning algorithms. Our novelty lies in (i) the combination of these
algorithms with Natural Language Processing (NLP) tools to represent jobs and
(ii) the design of the approach to work in an online fashion in a real system.
The study is based on a dataset extracted from a production machine hosted at
the HPC centre CINECA in Italy. Experimental results show that our approach is
promising.
- Abstract(参考訳): 現代高性能コンピューティング(HPC)システムは複雑な機械であり、経済と社会に大きな影響を与えている。
計算能力に加えて、エネルギー消費も着実に増加しており、環境危機やエネルギー危機が続く中、深刻な問題となっている。
したがって,HPCシステム管理を最適化する戦略開発は,上位層の性能保証とエネルギー効率向上の両面において最重要となる。
ひとつの戦略は、システム上で実行される前に、ワークロードレベルで行動し、最も失敗しそうなジョブを強調することです。
実行中に失敗したジョブは、他のジョブを遅らせる可能性のあるリソースを不要に占有し、システムのパフォーマンスとエネルギー消費に悪影響を及ぼす。
本稿では,従来の機械学習アルゴリズムを用いて,送信時のジョブ障害予測について検討する。
私たちの斬新さは
(i)これらのアルゴリズムと自然言語処理(NLP)ツールを組み合わせてジョブを表現し、
(二)実際のシステムにおいて、オンライン方式で作業するためのアプローチの設計。
この研究は、イタリアのHPCセンターCINECAでホストされている生産機械から抽出されたデータセットに基づいている。
実験の結果,我々のアプローチは有望であることがわかった。
関連論文リスト
- Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - Solving Boltzmann Optimization Problems with Deep Learning [0.21485350418225244]
Isingモデルは、高エネルギー効率計算のための将来のフレームワークとして、特に有望であることを示している。
イジングシステムは、計算のエネルギー消費に対する熱力学的限界に近づくエネルギーで操作することができる。
Isingベースのハードウェアを作成する際の課題は、基本的な非決定論的ハードウェア上で正しい結果を生成する有用な回路を最適化することである。
論文 参考訳(メタデータ) (2024-01-30T19:52:02Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Optimization paper production through digitalization by developing an
assistance system for machine operators including quality forecast: a concept [50.591267188664666]
廃紙からの紙の製造は、特にエネルギー消費の観点からも、依然として非常に資源集約的な課題である。
我々は,その利用方法の欠如を特定し,操作支援システムと最先端の機械学習技術を用いた概念の実装を行った。
我々の主な目的は、利用可能なデータを活用するマシンオペレーターに状況に応じた知識を提供することである。
論文 参考訳(メタデータ) (2022-06-23T09:54:35Z) - Multiply-and-Fire (MNF): An Event-driven Sparse Neural Network
Accelerator [3.224364382976958]
この研究は、ANNアクセラレーションに対するイベント駆動(あるいはアクティベーション駆動)アプローチで、スパーシリティをユニークな視点で見る。
我々の分析および実験結果から、このイベント駆動型ソリューションは、CNNとワークロードの両方で高効率なAI推論を可能にするために、新たな方向を示すことが示されている。
論文 参考訳(メタデータ) (2022-04-20T21:56:50Z) - AI Chiller: An Open IoT Cloud Based Machine Learning Framework for the
Energy Saving of Building HVAC System via Big Data Analytics on the Fusion of
BMS and Environmental Data [12.681421165031576]
建物における省エネルギーと二酸化炭素排出量削減は気候変動対策の鍵となる手段の一つである。
シラーシステムの電力消費の最適化は、機械工学と建築サービス領域で広く研究されてきた。
ビッグデータとAIの進歩により、最適化問題への機械学習の採用が人気を集めている。
論文 参考訳(メタデータ) (2020-10-09T09:51:03Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。