論文の概要: Compute, Time and Energy Characterization of Encoder-Decoder Networks
with Automatic Mixed Precision Training
- arxiv url: http://arxiv.org/abs/2008.08062v1
- Date: Tue, 18 Aug 2020 17:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 22:15:03.353143
- Title: Compute, Time and Energy Characterization of Encoder-Decoder Networks
with Automatic Mixed Precision Training
- Title(参考訳): 自動混合精度トレーニングによるエンコーダデコーダネットワークの計算・時間・エネルギー特性評価
- Authors: Siddharth Samsi, Michael Jones, Mark M. Veillette
- Abstract要約: モデル性能を犠牲にすることなく、混合精度トレーニングを活用することにより、トレーニング時間の大幅な改善が可能であることを示す。
ネットワークのトレーニング可能なパラメータの数は1549%増加し、4つのエンコード層を持つUNetのエネルギー使用量は63.22%増加した。
- 参考スコア(独自算出の注目度): 6.761235154230549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have shown great success in many diverse fields. The
training of these networks can take significant amounts of time, compute and
energy. As datasets get larger and models become more complex, the exploration
of model architectures becomes prohibitive. In this paper we examine the
compute, energy and time costs of training a UNet based deep neural network for
the problem of predicting short term weather forecasts (called precipitation
Nowcasting). By leveraging a combination of data distributed and
mixed-precision training, we explore the design space for this problem. We also
show that larger models with better performance come at a potentially
incremental cost if appropriate optimizations are used. We show that it is
possible to achieve a significant improvement in training time by leveraging
mixed-precision training without sacrificing model performance. Additionally,
we find that a 1549% increase in the number of trainable parameters for a
network comes at a relatively smaller 63.22% increase in energy usage for a
UNet with 4 encoding layers.
- Abstract(参考訳): ディープニューラルネットワークは多くの様々な分野で大きな成功を収めている。
これらのネットワークのトレーニングには、かなりの時間、計算、エネルギーを要する可能性がある。
データセットが大きくなり、モデルがより複雑になるにつれて、モデルアーキテクチャの探索は禁止される。
本稿では,短期間の気象予報(降水ノーキャスト)の予測問題に対して,unetベースの深層ニューラルネットワークを訓練する計算量,エネルギー,時間コストについて検討する。
データ分散と混合精度トレーニングの組み合わせを活用することで,この問題の設計空間を探究する。
また、適切な最適化が使用されると、パフォーマンスが良くなる大きなモデルは、潜在的にインクリメンタルなコストがかかることも示します。
モデル性能を犠牲にすることなく、混合精度トレーニングを活用し、トレーニング時間を大幅に改善できることを示す。
さらに、ネットワークのトレーニング可能なパラメータ数を1549%増加させると、4つのエンコーディング層を持つunetのエネルギー使用率が63.22%減少するという結果が得られた。
関連論文リスト
- Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Gradual Optimization Learning for Conformational Energy Minimization [69.36925478047682]
ニューラルネットワークによるエネルギー最小化のためのGradual Optimization Learning Framework(GOLF)は、必要な追加データを大幅に削減する。
GOLFでトレーニングしたニューラルネットワークは,種々の薬物様分子のベンチマークにおいて,オラクルと同等に動作することを示す。
論文 参考訳(メタデータ) (2023-11-05T11:48:08Z) - DNNAbacus: Toward Accurate Computational Cost Prediction for Deep Neural
Networks [0.9896984829010892]
本稿では,29の古典的ディープニューラルネットワークの計算資源要求を調査し,計算コストを予測するための正確なモデルを構築した。
ネットワーク表現のための新しいネットワーク構造行列を用いた軽量な予測手法DNNAbacusを提案する。
実験の結果, 平均相対誤差 (MRE) は時間に対して0.9%, メモリに関しては2.8%であった。
論文 参考訳(メタデータ) (2022-05-24T14:21:27Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Improving Neural Networks for Time Series Forecasting using Data
Augmentation and AutoML [0.0]
本稿では,ニューラルネットワークの性能を大幅に向上させるデータ拡張手法を提案する。
これは、Neural Architecture Searchのような自動機械学習技術を組み合わせることで、与えられた時系列に最適なニューラルネットワークを見つけるのに役立つことを示している。
論文 参考訳(メタデータ) (2021-03-02T19:20:49Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。