Fugu-MT 論文翻訳(概要): Prediction of GPU Failures Under Deep Learning Workloads

論文の概要: Prediction of GPU Failures Under Deep Learning Workloads

arxiv url: http://arxiv.org/abs/2201.11853v1
Date: Thu, 27 Jan 2022 23:07:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-31 14:36:32.531460
Title: Prediction of GPU Failures Under Deep Learning Workloads
Title（参考訳）: ディープラーニングワークロードによるGPU故障予測
Authors: Heting Liu, Zhichao Li, Cheng Tan, Rongqiu Yang, Guohong Cao, Zherui Liu, Chuanxiong Guo
Abstract要約: 本稿では,大規模な実運用深層学習ワークロード下でのGPU故障の予測モデルについて検討した。本稿では,並列およびカスケードモデルアンサンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。その結果,提案手法は予測精度を46.3%から84.0%に改善した。
参考スコア（独自算出の注目度）: 12.720893017696296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Graphics processing units (GPUs) are the de facto standard for processing deep learning (DL) tasks. Meanwhile, GPU failures, which are inevitable, cause severe consequences in DL tasks: they disrupt distributed trainings, crash inference services, and result in service level agreement violations. To mitigate the problem caused by GPU failures, we propose to predict failures by using ML models. This paper is the first to study prediction models of GPU failures under large-scale production deep learning workloads. As a starting point, we evaluate classic prediction models and observe that predictions of these models are both inaccurate and unstable. To improve the precision and stability of predictions, we propose several techniques, including parallel and cascade model-ensemble mechanisms and a sliding training method. We evaluate the performances of our various techniques on a four-month production dataset including 350 million entries. The results show that our proposed techniques improve the prediction precision from 46.3\% to 84.0\%.
Abstract（参考訳）: グラフィックス処理ユニット(GPU)は、ディープラーニング(DL)タスクを処理するデファクトスタンダードである。一方、GPUの障害は必然的であり、分散トレーニングを中断し、推論サービスをクラッシュさせ、サービスレベルの契約違反を引き起こすという、DLタスクに重大な結果をもたらす。本稿では,GPU故障による問題を緩和するために,MLモデルを用いて故障を予測することを提案する。本稿では,大規模ディープラーニングワークロードにおけるgpu障害の予測モデルについて初めて検討する。出発点として、古典予測モデルを評価し、これらのモデルの予測が不正確かつ不安定であることを観察する。予測の精度と安定性を向上させるため,パラレルおよびカスケードモデルセンブル機構やスライディングトレーニング手法など,いくつかの手法を提案する。我々は,3億5000万項目を含む4ヶ月の生産データセットを用いて,各種技術の性能評価を行った。その結果,提案手法は予測精度を46.3\%から84.0\%に改善した。

関連論文リスト

Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8193940110293]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文参考訳（メタデータ） (2024-12-05T18:21:49Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文参考訳（メタデータ） (2024-11-07T00:10:10Z)
Next Best View For Point-Cloud Model Acquisition: Bayesian Approximation and Uncertainty Analysis [2.07180164747172]
この研究は、Next-Best-View(PC-NBV)にポイントネットベースのニューラルネットワークを適用する。モデルアーキテクチャにドロップアウト層を組み込むことで、予測に関連する不確実性推定の計算を可能にする。本研究の目的は,次の視点を正確に予測することで,ネットワークの精度を向上させることである。
論文参考訳（メタデータ） (2024-11-04T01:32:09Z)
More precise edge detections [0.0]
エッジ検出 (ED) はコンピュータビジョンの基本的なタスクである。現在のモデルは相変わらず不満足な精度に悩まされている。より正確な予測のためのモデルアーキテクチャはまだ調査が必要である。
論文参考訳（メタデータ） (2024-07-29T13:24:55Z)
Variance of ML-based software fault predictors: are we really improving fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文参考訳（メタデータ） (2023-10-26T09:31:32Z)
Learning Sample Difficulty from Pre-trained Models for Reliable Prediction [55.77136037458667]
本稿では,大規模事前学習モデルを用いて,サンプル難易度を考慮したエントロピー正規化による下流モデルトレーニングを指導する。我々は、挑戦的なベンチマークで精度と不確実性の校正を同時に改善する。
論文参考訳（メタデータ） (2023-04-20T07:29:23Z)
Bridging Precision and Confidence: A Train-Time Loss for Calibrating Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文参考訳（メタデータ） (2023-03-25T08:56:21Z)
Probabilistic prediction of the heave motions of a semi-submersible by a deep learning problem model [4.903969235471705]
深層学習(DL)モデルを拡張し,20～50秒前に浮遊半潜水艇のヒーブ・サージ動作を精度良く予測する。本研究では,オフショアプラットフォームの波動励起運動を予測するために,DLモデルの理解を深める。
論文参考訳（メタデータ） (2021-10-09T06:26:42Z)
Tolerating Adversarial Attacks and Byzantine Faults in Distributed Machine Learning [12.464625883462515]
敵対的攻撃は、人工知能と機械学習モデルのトレーニング、再訓練、活用を妨害しようとする。本稿では,敵対的攻撃を防御し,ビザンチン断層を許容する分散学習アルゴリズムParSGDを提案する。以上の結果から,ParSGDを用いたMLモデルでは,攻撃を受けていないか,ノードのほぼ半数が障害を受けたか,あるいは障害が発生していないか,というような正確な予測が可能であることがわかった。
論文参考訳（メタデータ） (2021-09-05T07:55:02Z)
Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文参考訳（メタデータ） (2021-02-10T15:23:20Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。