論文の概要: Prediction of GPU Failures Under Deep Learning Workloads
- arxiv url: http://arxiv.org/abs/2201.11853v1
- Date: Thu, 27 Jan 2022 23:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:36:32.531460
- Title: Prediction of GPU Failures Under Deep Learning Workloads
- Title(参考訳): ディープラーニングワークロードによるGPU故障予測
- Authors: Heting Liu, Zhichao Li, Cheng Tan, Rongqiu Yang, Guohong Cao, Zherui
Liu, Chuanxiong Guo
- Abstract要約: 本稿では,大規模な実運用深層学習ワークロード下でのGPU故障の予測モデルについて検討した。
本稿では,並列およびカスケードモデルアンサンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。
その結果,提案手法は予測精度を46.3%から84.0%に改善した。
- 参考スコア(独自算出の注目度): 12.720893017696296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphics processing units (GPUs) are the de facto standard for processing
deep learning (DL) tasks. Meanwhile, GPU failures, which are inevitable, cause
severe consequences in DL tasks: they disrupt distributed trainings, crash
inference services, and result in service level agreement violations. To
mitigate the problem caused by GPU failures, we propose to predict failures by
using ML models. This paper is the first to study prediction models of GPU
failures under large-scale production deep learning workloads. As a starting
point, we evaluate classic prediction models and observe that predictions of
these models are both inaccurate and unstable. To improve the precision and
stability of predictions, we propose several techniques, including parallel and
cascade model-ensemble mechanisms and a sliding training method. We evaluate
the performances of our various techniques on a four-month production dataset
including 350 million entries. The results show that our proposed techniques
improve the prediction precision from 46.3\% to 84.0\%.
- Abstract(参考訳): グラフィックス処理ユニット(GPU)は、ディープラーニング(DL)タスクを処理するデファクトスタンダードである。
一方、GPUの障害は必然的であり、分散トレーニングを中断し、推論サービスをクラッシュさせ、サービスレベルの契約違反を引き起こすという、DLタスクに重大な結果をもたらす。
本稿では,GPU故障による問題を緩和するために,MLモデルを用いて故障を予測することを提案する。
本稿では,大規模ディープラーニングワークロードにおけるgpu障害の予測モデルについて初めて検討する。
出発点として、古典予測モデルを評価し、これらのモデルの予測が不正確かつ不安定であることを観察する。
予測の精度と安定性を向上させるため,パラレルおよびカスケードモデルセンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。
我々は,3億5000万項目を含む4ヶ月の生産データセットを用いて,各種技術の性能評価を行った。
その結果,提案手法は予測精度を46.3\%から84.0\%に改善した。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Next Best View For Point-Cloud Model Acquisition: Bayesian Approximation and Uncertainty Analysis [2.07180164747172]
この研究は、Next-Best-View(PC-NBV)にポイントネットベースのニューラルネットワークを適用する。
モデルアーキテクチャにドロップアウト層を組み込むことで、予測に関連する不確実性推定の計算を可能にする。
本研究の目的は,次の視点を正確に予測することで,ネットワークの精度を向上させることである。
論文 参考訳(メタデータ) (2024-11-04T01:32:09Z) - More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。
現在のモデルは相変わらず不満足な精度に悩まされている。
より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文 参考訳(メタデータ) (2024-07-29T13:24:55Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Tolerating Adversarial Attacks and Byzantine Faults in Distributed
Machine Learning [12.464625883462515]
敵対的攻撃は、人工知能と機械学習モデルのトレーニング、再訓練、活用を妨害しようとする。
本稿では,敵対的攻撃を防御し,ビザンチン断層を許容する分散学習アルゴリズムParSGDを提案する。
以上の結果から,ParSGDを用いたMLモデルでは,攻撃を受けていないか,ノードのほぼ半数が障害を受けたか,あるいは障害が発生していないか,というような正確な予測が可能であることがわかった。
論文 参考訳(メタデータ) (2021-09-05T07:55:02Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。