論文の概要: Computational Performance Predictions for Deep Neural Network Training:
A Runtime-Based Approach
- arxiv url: http://arxiv.org/abs/2102.00527v1
- Date: Sun, 31 Jan 2021 20:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 10:11:40.648180
- Title: Computational Performance Predictions for Deep Neural Network Training:
A Runtime-Based Approach
- Title(参考訳): ディープニューラルネットワークトレーニングのための計算性能予測:実行時アプローチ
- Authors: Geoffrey X. Yu, Yubo Gao, Pavel Golikov, Gennady Pekhimenko
- Abstract要約: 本稿では,ユーザが情報と費用効率のよいGPU選択を行うための,新しい実践手法を提案する。
我々は、(i)ウェーブスケーリング、または(ii)GPUの実行モデルに基づく技術、または(ii)事前訓練されたマルチレイヤーパーセプトロンを用いて、トレーニングイテレーション中の各操作の実行時間を1つのGPUから別のGPUにスケーリングすることで予測を行う。
この手法をSurferというPythonライブラリに実装し、ResNet-50、Inception v3、Transformer、GNMT、DCGANで正確なイテレーション実行時間予測を行う。
- 参考スコア(独自算出の注目度): 1.5857983167543392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning researchers and practitioners usually leverage GPUs to help
train their deep neural networks (DNNs) faster. However, choosing which GPU to
use is challenging both because (i) there are many options, and (ii) users
grapple with competing concerns: maximizing compute performance while
minimizing costs. In this work, we present a new practical technique to help
users make informed and cost-efficient GPU selections: make performance
predictions using the help of a GPU that the user already has. Our technique
exploits the observation that, because DNN training consists of repetitive
compute steps, predicting the execution time of a single iteration is usually
enough to characterize the performance of an entire training process. We make
predictions by scaling the execution time of each operation in a training
iteration from one GPU to another using either (i) wave scaling, a technique
based on a GPU's execution model, or (ii) pre-trained multilayer perceptrons.
We implement our technique into a Python library called Surfer and find that it
makes accurate iteration execution time predictions on ResNet-50, Inception v3,
the Transformer, GNMT, and DCGAN across six different GPU architectures. Surfer
currently supports PyTorch, is easy to use, and requires only a few lines of
code.
- Abstract(参考訳): ディープラーニングの研究者や実践者は、通常、GPUを利用してディープニューラルネットワーク(DNN)を高速にトレーニングします。
しかし、(i)選択肢が多く、(ii)ユーザは、計算性能の最大化とコストの最小化という競合する懸念に悩まされているため、どのGPUを使うかを選択することは難しい。
本研究では,ユーザがすでに持っているGPUを用いて,情報に基づいた費用対効果の高いGPU選択を行うための,新たな実用的手法を提案する。
dnnのトレーニングは反復的な計算ステップで構成されているため、単一のイテレーションの実行時間の予測はトレーニングプロセス全体のパフォーマンスを特徴付けるのに十分である。
i)波のスケーリング、GPUの実行モデルに基づく技術、または(ii)事前に訓練された多層パーセプトロンを使用して、トレーニングイテレーション内の各操作の実行時間を1つのGPUから別のGPUにスケーリングすることによって予測を行います。
私たちはこの手法をSurferというPythonライブラリに実装し、ResNet-50、Inception v3、Transformer、GNMT、DCGANの6つの異なるGPUアーキテクチャ上で正確なイテレーション実行時間予測を行う。
Surferは現在PyTorchをサポートしており、使いやすく、数行のコードしか必要としない。
関連論文リスト
- Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Comparative Analysis of CPU and GPU Profiling for Deep Learning Models [0.0]
本稿では、Pytorchを用いて深層ニューラルネットワークをトレーニングしながら、CPUとGPUの時間とメモリ割り当てを示す。
単純なネットワークでは、CPUよりもGPUが大幅に改善されることはない。
論文 参考訳(メタデータ) (2023-09-05T18:22:11Z) - Learning representations by forward-propagating errors [0.0]
バックプロパゲーション(BP)はニューラルネットワーク最適化のための学習アルゴリズムとして広く使われている。
現在のニューラルネットワークオプティミザイトンは、計算統一デバイスアーキテクチャ(CUDA)プログラミングによるグラフィカル処理ユニット(GPU)で実行される。
本稿では,GPU上でのアクセラレーションと同じくらい高速な高速学習アルゴリズムをCPU上で提案する。
論文 参考訳(メタデータ) (2023-08-17T13:56:26Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。
これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-20T22:42:14Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。