論文の概要: Prediction of GPU Failures Under Deep Learning Workloads
- arxiv url: http://arxiv.org/abs/2201.11853v1
- Date: Thu, 27 Jan 2022 23:07:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 14:36:32.531460
- Title: Prediction of GPU Failures Under Deep Learning Workloads
- Title(参考訳): ディープラーニングワークロードによるGPU故障予測
- Authors: Heting Liu, Zhichao Li, Cheng Tan, Rongqiu Yang, Guohong Cao, Zherui
Liu, Chuanxiong Guo
- Abstract要約: 本稿では,大規模な実運用深層学習ワークロード下でのGPU故障の予測モデルについて検討した。
本稿では,並列およびカスケードモデルアンサンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。
その結果,提案手法は予測精度を46.3%から84.0%に改善した。
- 参考スコア(独自算出の注目度): 12.720893017696296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphics processing units (GPUs) are the de facto standard for processing
deep learning (DL) tasks. Meanwhile, GPU failures, which are inevitable, cause
severe consequences in DL tasks: they disrupt distributed trainings, crash
inference services, and result in service level agreement violations. To
mitigate the problem caused by GPU failures, we propose to predict failures by
using ML models. This paper is the first to study prediction models of GPU
failures under large-scale production deep learning workloads. As a starting
point, we evaluate classic prediction models and observe that predictions of
these models are both inaccurate and unstable. To improve the precision and
stability of predictions, we propose several techniques, including parallel and
cascade model-ensemble mechanisms and a sliding training method. We evaluate
the performances of our various techniques on a four-month production dataset
including 350 million entries. The results show that our proposed techniques
improve the prediction precision from 46.3\% to 84.0\%.
- Abstract(参考訳): グラフィックス処理ユニット(GPU)は、ディープラーニング(DL)タスクを処理するデファクトスタンダードである。
一方、GPUの障害は必然的であり、分散トレーニングを中断し、推論サービスをクラッシュさせ、サービスレベルの契約違反を引き起こすという、DLタスクに重大な結果をもたらす。
本稿では,GPU故障による問題を緩和するために,MLモデルを用いて故障を予測することを提案する。
本稿では,大規模ディープラーニングワークロードにおけるgpu障害の予測モデルについて初めて検討する。
出発点として、古典予測モデルを評価し、これらのモデルの予測が不正確かつ不安定であることを観察する。
予測の精度と安定性を向上させるため,パラレルおよびカスケードモデルセンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。
我々は,3億5000万項目を含む4ヶ月の生産データセットを用いて,各種技術の性能評価を行った。
その結果,提案手法は予測精度を46.3\%から84.0\%に改善した。
関連論文リスト
- TaskMet: Task-Driven Metric Learning for Model Learning [31.118311918110454]
ディープラーニングモデルは、トレーニング手順が認識していない可能性のある下流タスクにデプロイされることが多い。
本稿では,モデルのパラメータよりも1段階深いタスク損失信号を用いて,モデルがトレーニングした損失関数のパラメータを学習する。
このアプローチは、最適な予測モデル自体を変更するのではなく、下流のタスクにとって重要な情報を強調するためにモデル学習を変更する。
論文 参考訳(メタデータ) (2023-12-08T18:59:03Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - Learning Sample Difficulty from Pre-trained Models for Reliable
Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。
我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文 参考訳(メタデータ) (2023-04-20T07:29:23Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Probabilistic prediction of the heave motions of a semi-submersible by a
deep learning problem model [4.903969235471705]
深層学習(DL)モデルを拡張し,20~50秒前に浮遊半潜水艇のヒーブ・サージ動作を精度良く予測する。
本研究では,オフショアプラットフォームの波動励起運動を予測するために,DLモデルの理解を深める。
論文 参考訳(メタデータ) (2021-10-09T06:26:42Z) - Tolerating Adversarial Attacks and Byzantine Faults in Distributed
Machine Learning [12.464625883462515]
敵対的攻撃は、人工知能と機械学習モデルのトレーニング、再訓練、活用を妨害しようとする。
本稿では,敵対的攻撃を防御し,ビザンチン断層を許容する分散学習アルゴリズムParSGDを提案する。
以上の結果から,ParSGDを用いたMLモデルでは,攻撃を受けていないか,ノードのほぼ半数が障害を受けたか,あるいは障害が発生していないか,というような正確な予測が可能であることがわかった。
論文 参考訳(メタデータ) (2021-09-05T07:55:02Z) - Hessian-based toolbox for reliable and interpretable machine learning in
physics [58.720142291102135]
本稿では,モデルアーキテクチャの解釈可能性と信頼性,外挿を行うためのツールボックスを提案する。
与えられたテストポイントでの予測に対する入力データの影響、モデル予測の不確実性の推定、およびモデル予測の不可知スコアを提供する。
我々の研究は、物理学やより一般的には科学に適用されたMLにおける解釈可能性と信頼性の方法の体系的利用への道を開く。
論文 参考訳(メタデータ) (2021-08-04T16:32:59Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。