論文の概要: Dynamic GPU Energy Optimization for Machine Learning Training Workloads
- arxiv url: http://arxiv.org/abs/2201.01684v1
- Date: Wed, 5 Jan 2022 16:25:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-06 15:41:00.482129
- Title: Dynamic GPU Energy Optimization for Machine Learning Training Workloads
- Title(参考訳): 機械学習学習作業負荷に対する動的GPUエネルギー最適化
- Authors: Farui Wang, Weizhe Zhang, Shichao Lai, Meng Hao, Zheng Wang
- Abstract要約: GPOEOは、機械学習トレーニングワークロードのための、オンラインGPUエネルギ最適化フレームワークである。
オンライン計測、多目的予測モデリング、探索最適化に新しい手法を採用している。
NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。
- 参考スコア(独自算出の注目度): 9.156075372403421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPUs are widely used to accelerate the training of machine learning
workloads. As modern machine learning models become increasingly larger, they
require a longer time to train, leading to higher GPU energy consumption. This
paper presents GPOEO, an online GPU energy optimization framework for machine
learning training workloads. GPOEO dynamically determines the optimal energy
configuration by employing novel techniques for online measurement,
multi-objective prediction modeling, and search optimization. To characterize
the target workload behavior, GPOEO utilizes GPU performance counters. To
reduce the performance counter profiling overhead, it uses an analytical model
to detect the training iteration change and only collects performance counter
data when an iteration shift is detected. GPOEO employs multi-objective models
based on gradient boosting and a local search algorithm to find a trade-off
between execution time and energy consumption. We evaluate the GPOEO by
applying it to 71 machine learning workloads from two AI benchmark suites
running on an NVIDIA RTX3080Ti GPU. Compared with the NVIDIA default scheduling
strategy, GPOEO delivers a mean energy saving of 16.2% with a modest average
execution time increase of 5.1%.
- Abstract(参考訳): GPUは機械学習ワークロードのトレーニングを加速するために広く使用されている。
現代の機械学習モデルがますます大きくなるにつれて、トレーニングに長い時間を要するようになり、GPUエネルギー消費が増加する。
本稿では、機械学習トレーニングワークロードのためのオンラインGPUエネルギー最適化フレームワークGPOEOを提案する。
GPOEOは、オンライン計測、多目的予測モデリング、探索最適化のための新しい手法を用いて、最適エネルギー構成を動的に決定する。
ターゲットのワークロードの挙動を特徴付けるために、GPOEOはGPUパフォーマンスカウンタを使用している。
性能カウンタのプロファイリングオーバーヘッドを低減するため、解析モデルを用いてトレーニングイテレーションの変更を検出し、イテレーションシフトを検出した場合にのみパフォーマンスカウンタデータを収集する。
GPOEOは勾配向上に基づく多目的モデルと局所探索アルゴリズムを用いて実行時間とエネルギー消費のトレードオフを求める。
NVIDIA RTX3080Ti GPU上で動作する2つのAIベンチマークスイートから、71の機械学習ワークロードに適用することにより、GPOEOを評価する。
NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。
関連論文リスト
- Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - AdaGrid: Adaptive Grid Search for Link Prediction Training Objective [58.79804082133998]
トレーニングの目的は、モデルの性能と一般化能力に決定的に影響を及ぼす。
本稿では,訓練中にエッジメッセージの比率を動的に調整する適応グリッド探索(AdaGrid)を提案する。
AdaGridは、完全検索の9倍の時間効率を保ちながら、モデルの性能を1.9%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-30T09:24:17Z) - Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。
デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。
本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-19T19:05:42Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。
ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。
我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文 参考訳(メタデータ) (2021-08-08T14:20:05Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Optimizing Memory Placement using Evolutionary Graph Reinforcement
Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。
我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。
また,NNP-Iコンパイラと比較して28~78%の高速化を実現している。
論文 参考訳(メタデータ) (2020-07-14T18:50:12Z) - How to Train Your Energy-Based Model for Regression [107.54411649704194]
近年,コンピュータビジョンにおいてエネルギーベースモデル (EBM) が普及している。
近年の作業では、回帰タスクにもESMを適用し、オブジェクト検出と視覚的トラッキングにおける最先端のパフォーマンスを実現している。
最高のレグレッションパフォーマンスのためにEBMをどのようにトレーニングするかは、十分に研究された問題ではありません。
論文 参考訳(メタデータ) (2020-05-04T17:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。