Fugu-MT 論文翻訳(概要): Dynamic GPU Energy Optimization for Machine Learning Training Workloads

論文の概要: Dynamic GPU Energy Optimization for Machine Learning Training Workloads

arxiv url: http://arxiv.org/abs/2201.01684v1
Date: Wed, 5 Jan 2022 16:25:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-06 15:41:00.482129
Title: Dynamic GPU Energy Optimization for Machine Learning Training Workloads
Title（参考訳）: 機械学習学習作業負荷に対する動的GPUエネルギー最適化
Authors: Farui Wang, Weizhe Zhang, Shichao Lai, Meng Hao, Zheng Wang
Abstract要約: GPOEOは、機械学習トレーニングワークロードのための、オンラインGPUエネルギ最適化フレームワークである。オンライン計測、多目的予測モデリング、探索最適化に新しい手法を採用している。 NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。
参考スコア（独自算出の注目度）: 9.156075372403421
License: http://creativecommons.org/licenses/by/4.0/
Abstract: GPUs are widely used to accelerate the training of machine learning workloads. As modern machine learning models become increasingly larger, they require a longer time to train, leading to higher GPU energy consumption. This paper presents GPOEO, an online GPU energy optimization framework for machine learning training workloads. GPOEO dynamically determines the optimal energy configuration by employing novel techniques for online measurement, multi-objective prediction modeling, and search optimization. To characterize the target workload behavior, GPOEO utilizes GPU performance counters. To reduce the performance counter profiling overhead, it uses an analytical model to detect the training iteration change and only collects performance counter data when an iteration shift is detected. GPOEO employs multi-objective models based on gradient boosting and a local search algorithm to find a trade-off between execution time and energy consumption. We evaluate the GPOEO by applying it to 71 machine learning workloads from two AI benchmark suites running on an NVIDIA RTX3080Ti GPU. Compared with the NVIDIA default scheduling strategy, GPOEO delivers a mean energy saving of 16.2% with a modest average execution time increase of 5.1%.
Abstract（参考訳）: GPUは機械学習ワークロードのトレーニングを加速するために広く使用されている。現代の機械学習モデルがますます大きくなるにつれて、トレーニングに長い時間を要するようになり、GPUエネルギー消費が増加する。本稿では、機械学習トレーニングワークロードのためのオンラインGPUエネルギー最適化フレームワークGPOEOを提案する。 GPOEOは、オンライン計測、多目的予測モデリング、探索最適化のための新しい手法を用いて、最適エネルギー構成を動的に決定する。ターゲットのワークロードの挙動を特徴付けるために、GPOEOはGPUパフォーマンスカウンタを使用している。性能カウンタのプロファイリングオーバーヘッドを低減するため、解析モデルを用いてトレーニングイテレーションの変更を検出し、イテレーションシフトを検出した場合にのみパフォーマンスカウンタデータを収集する。 GPOEOは勾配向上に基づく多目的モデルと局所探索アルゴリズムを用いて実行時間とエネルギー消費のトレードオフを求める。 NVIDIA RTX3080Ti GPU上で動作する2つのAIベンチマークスイートから、71の機械学習ワークロードに適用することにより、GPOEOを評価する。 NVIDIAのデフォルトのスケジューリング戦略と比較すると、GPOEOは平均エネルギーを16.2%削減し、平均実行時間は5.1%増加した。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。 VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文参考訳（メタデータ） (2025-04-04T19:20:03Z)
AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文参考訳（メタデータ） (2023-11-06T14:44:34Z)
Performance and Energy Consumption of Parallel Machine Learning Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文参考訳（メタデータ） (2023-05-01T13:04:39Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
AdaGrid: Adaptive Grid Search for Link Prediction Training Objective [58.79804082133998]
トレーニングの目的は、モデルの性能と一般化能力に決定的に影響を及ぼす。本稿では,訓練中にエッジメッセージの比率を動的に調整する適応グリッド探索(AdaGrid)を提案する。 AdaGridは、完全検索の9倍の時間効率を保ちながら、モデルの性能を1.9%まで向上させることができることを示す。
論文参考訳（メタデータ） (2022-03-30T09:24:17Z)
Building a Performance Model for Deep Learning Recommendation Model Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-19T19:05:42Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文参考訳（メタデータ） (2021-10-03T05:45:06Z)
Online Evolutionary Batch Size Orchestration for Scheduling Deep Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。 ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文参考訳（メタデータ） (2021-08-08T14:20:05Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
Optimizing Memory Placement using Evolutionary Graph Reinforcement Learning [56.83172249278467]
大規模検索空間を対象とした進化グラフ強化学習(EGRL)を提案する。我々は、推論のために、Intel NNP-Iチップ上で、我々のアプローチを直接訓練し、検証する。また,NNP-Iコンパイラと比較して28～78%の高速化を実現している。
論文参考訳（メタデータ） (2020-07-14T18:50:12Z)
How to Train Your Energy-Based Model for Regression [107.54411649704194]
近年,コンピュータビジョンにおいてエネルギーベースモデル (EBM) が普及している。近年の作業では、回帰タスクにもESMを適用し、オブジェクト検出と視覚的トラッキングにおける最先端のパフォーマンスを実現している。最高のレグレッションパフォーマンスのためにEBMをどのようにトレーニングするかは、十分に研究された問題ではありません。
論文参考訳（メタデータ） (2020-05-04T17:55:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。