論文の概要: Acela: Predictable Datacenter-level Maintenance Job Scheduling
- arxiv url: http://arxiv.org/abs/2212.05155v1
- Date: Sat, 10 Dec 2022 00:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:07:39.593507
- Title: Acela: Predictable Datacenter-level Maintenance Job Scheduling
- Title(参考訳): Acela: 予測可能なデータセンタレベルのメンテナンスジョブスケジューリング
- Authors: Yi Ding, Aijia Gao, Thibaud Ryden, Kaushik Mitra, Sukumar Kalmanje,
Yanai Golany, Michael Carbin, Henry Hoffmann
- Abstract要約: 本稿では,維持作業期間を予測する機械学習システムであるAcelaを紹介する。
Acela はオフラインのサーバ数を 1.87-4.28X に減らし,サーバのオフライン時間を 1.40-2.80X に減らした。
- 参考スコア(独自算出の注目度): 27.990173338574138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Datacenter operators ensure fair and regular server maintenance by using
automated processes to schedule maintenance jobs to complete within a strict
time budget. Automating this scheduling problem is challenging because
maintenance job duration varies based on both job type and hardware. While it
is tempting to use prior machine learning techniques for predicting job
duration, we find that the structure of the maintenance job scheduling problem
creates a unique challenge. In particular, we show that prior machine learning
methods that produce the lowest error predictions do not produce the best
scheduling outcomes due to asymmetric costs. Specifically, underpredicting
maintenance job duration has results in more servers being taken offline and
longer server downtime than overpredicting maintenance job duration. The system
cost of underprediction is much larger than that of overprediction.
We present Acela, a machine learning system for predicting maintenance job
duration, which uses quantile regression to bias duration predictions toward
overprediction. We integrate Acela into a maintenance job scheduler and
evaluate it on datasets from large-scale, production datacenters. Compared to
machine learning based predictors from prior work, Acela reduces the number of
servers that are taken offline by 1.87-4.28X, and reduces the server offline
time by 1.40-2.80X.
- Abstract(参考訳): データセンターオペレータは、メンテナンスジョブを厳格な時間予算で完了するようにスケジュールするために自動化プロセスを使用することで、公平で定期的なサーバメンテナンスを保証する。
このスケジューリング問題の自動化は、ジョブタイプとハードウェアの両方でメンテナンスの時間が異なるため、難しい。
従来の機械学習技術を用いて作業期間を予測する傾向にあるが、メンテナンスジョブスケジューリング問題の構造がユニークな課題を生んでいることが分かる。
特に、最も低い誤差予測を生成する事前機械学習手法は、非対称なコストのために最適なスケジューリング結果を生み出しないことを示す。
具体的には、メンテナンスの作業時間の過小評価は、メンテナンスの作業時間の過大評価よりも、オフラインでサーバのダウンタイムが長くなります。
過小評価のシステムコストは過小評価のシステムコストよりもはるかに大きい。
本稿では,維持作業期間を予測する機械学習システムであるAcelaについて紹介する。
Acelaをメンテナンスジョブスケジューラに統合し、大規模な運用データセンタのデータセット上で評価します。
機械学習ベースの予測器と比較して、Acelaはオフラインのサーバ数を1.87-4.28Xに減らし、サーバのオフライン時間を1.40-2.80Xに減らした。
関連論文リスト
- SkipPredict: When to Invest in Predictions for Scheduling [10.895221249490984]
そこで本研究では,予測手法であるSkipPredict(SkipPredict)を導入し,そのコストに対処する手法を提案する。
これを実現するために、ジョブを短くも長くも分類するために、1ビットの“チープ予測”を使用します。
2つの異なるモデルに対して、このコストが与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-05T22:24:19Z) - TranDRL: A Transformer-Driven Deep Reinforcement Learning Enabled Prescriptive Maintenance Framework [58.474610046294856]
産業システムは、運用効率を高め、ダウンタイムを減らすための信頼性の高い予測保守戦略を要求する。
本稿では,Transformerモデルに基づくニューラルネットワークと深部強化学習(DRL)アルゴリズムの機能を活用し,システムの保守動作を最適化する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:27:54Z) - Learning While Scheduling in Multi-Server Systems with Unknown
Statistics: MaxWeight with Discounted UCB [18.898514227870926]
本稿では、複数のサーバと複数のタイプのジョブを持つマルチサーバシステムについて考察する。
目標は、処理時間の統計を知ることなく、サーバ上のジョブをスケジュールすることだ。
我々は,MaxWeightスケジューリングポリシと割引された高信頼度境界(UCB)を組み合わせることで,統計を同時に学習し,ジョブをサーバにスケジュールするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-02T15:37:02Z) - Human-in-the-Loop Large-Scale Predictive Maintenance of Workstations [89.51621054382878]
予測保守(英: Predictive maintenance, PdM)とは、システムの状態の統計的解析に基づいて、保守作業のスケジューリングを行うタスクである。
本稿では,機械学習システムがワークステーションの集合における将来の問題を予測できるPdM手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T09:40:46Z) - Prescriptive maintenance with causal machine learning [4.169130102668252]
同様のマシン上での観測データから,保守条件が機械特性に与える影響を学習する。
産業パートナーから4000以上の保守契約に関する実生活データを用いて,提案手法を検証した。
論文 参考訳(メタデータ) (2022-06-03T13:35:57Z) - Predictive Maintenance using Machine Learning [0.0]
予測保守(PdM)は、資産の保守計画を効果的に管理するために実施される。
データは一定期間にわたって収集され、機器の状態を監視する。
論文 参考訳(メタデータ) (2022-05-19T09:05:37Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。
顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文 参考訳(メタデータ) (2020-10-10T17:35:55Z) - Temporally Correlated Task Scheduling for Sequence Learning [143.70523777803723]
多くのアプリケーションにおいて、シーケンス学習タスクは通常、複数の時間的に相関した補助タスクと関連付けられている。
シーケンス学習に学習可能なスケジューラを導入し、トレーニングのための補助的なタスクを適応的に選択できる。
本手法は,同時翻訳とストックトレンド予測の性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-07-10T10:28:54Z) - Predictive Maintenance for Edge-Based Sensor Networks: A Deep
Reinforcement Learning Approach [68.40429597811071]
未計画の設備停止のリスクは、収益発生資産の予測保守によって最小化することができる。
機器に基づくセンサネットワークのコンテキストから予測機器のメンテナンスを行うために,モデルフリーのDeep Reinforcement Learningアルゴリズムを提案する。
従来のブラックボックス回帰モデルとは異なり、提案アルゴリズムは最適なメンテナンスポリシーを自己学習し、各機器に対して実行可能なレコメンデーションを提供する。
論文 参考訳(メタデータ) (2020-07-07T10:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。