論文の概要: ADA-GP: Accelerating DNN Training By Adaptive Gradient Prediction
- arxiv url: http://arxiv.org/abs/2305.13236v2
- Date: Thu, 30 Nov 2023 03:01:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:32:38.625216
- Title: ADA-GP: Accelerating DNN Training By Adaptive Gradient Prediction
- Title(参考訳): ADA-GP:適応的な勾配予測によるDNNトレーニングの高速化
- Authors: Vahid Janfaza, Shantanu Mandal, Farabi Mahmud, Abdullah Muzahid
- Abstract要約: 本稿では、勾配予測を適応的に利用して深層ニューラルネットワーク(DNN)トレーニングを高速化するADA-GPを提案する。
ADA-GPは、バックプロパゲート勾配を用いたDNNトレーニングと予測勾配を用いたDNNトレーニングを交互に行う。
実験の結果,ADA-GPはベースラインモデルと同等あるいはそれ以上の精度で平均1.47倍の速度を達成できることがわかった。
- 参考スコア(独自算出の注目度): 1.7356500114422735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network training is inherently sequential where the layers finish the
forward propagation in succession, followed by the calculation and
back-propagation of gradients (based on a loss function) starting from the last
layer. The sequential computations significantly slow down neural network
training, especially the deeper ones. Prediction has been successfully used in
many areas of computer architecture to speed up sequential processing.
Therefore, we propose ADA-GP, which uses gradient prediction adaptively to
speed up deep neural network (DNN) training while maintaining accuracy. ADA-GP
works by incorporating a small neural network to predict gradients for
different layers of a DNN model. ADA-GP uses a novel tensor reorganization
method to make it feasible to predict a large number of gradients. ADA-GP
alternates between DNN training using backpropagated gradients and DNN training
using predicted gradients. ADA-GP adaptively adjusts when and for how long
gradient prediction is used to strike a balance between accuracy and
performance. Last but not least, we provide a detailed hardware extension in a
typical DNN accelerator to realize the speed up potential from gradient
prediction. Our extensive experiments with fifteen DNN models show that ADA-GP
can achieve an average speed up of 1.47X with similar or even higher accuracy
than the baseline models. Moreover, it consumes, on average, 34% less energy
due to reduced off-chip memory accesses compared to the baseline accelerator.
- Abstract(参考訳): ニューラルネットワークのトレーニングは、階層が連続して前方伝播を終了し、続いて最後の層から始まる勾配(損失関数に基づく)の計算とバックプロパゲーションが続く、本質的にシーケンシャルである。
シーケンシャルな計算は、ニューラルネットワークのトレーニング、特に深いトレーニングを著しく遅くする。
予測は、シーケンシャルな処理をスピードアップするために、コンピュータアーキテクチャの多くの分野でうまく使われている。
そこで我々は、勾配予測を適応的に利用して、深層ニューラルネットワーク(DNN)トレーニングを精度を維持しながら高速化するADA-GPを提案する。
ADA-GPは、小さなニューラルネットワークを組み込んで、DNNモデルの異なるレイヤの勾配を予測する。
ADA-GPは、新しいテンソル再構成法を用いて、多数の勾配を予測することができる。
ADA-GPは、バックプロパゲート勾配を用いたDNNトレーニングと予測勾配を用いたDNNトレーニングを交互に行う。
ADA-GPは、精度と性能のバランスをとるために、いつ、どのくらいの勾配予測が使用されるかを適応的に調整する。
最後に、勾配予測による高速化を実現するために、典型的なdnnアクセラレーターに詳細なハードウェア拡張を提供する。
15種類のdnnモデルを用いた広範な実験により,ada-gpはベースラインモデルと同等あるいはそれ以上の精度で平均1.47倍の速度を達成することができた。
さらに、ベースラインアクセラレータに比べてチップ外のメモリアクセスが減少するため、平均して34%のエネルギーを消費する。
関連論文リスト
- Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Exact Gradient Computation for Spiking Neural Networks Through Forward
Propagation [39.33537954568678]
従来のニューラルネットワークに代わるものとして、スパイキングニューラルネットワーク(SNN)が登場している。
本稿では,SNNの正確な勾配を計算できるEmphforward propagation (FP)と呼ばれる新しいトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:28:21Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Learning with Local Gradients at the Edge [14.94491070863641]
我々は、Target Projection Gradient Descent (tpSGD) と呼ばれる新しいバックプロパゲーションフリー最適化アルゴリズムを提案する。
tpSGDは、任意の損失関数を扱うために、直接ランダムターゲット射影を一般化する。
我々は、深層ニューラルネットワークのトレーニングにおけるtpSGDの性能を評価し、マルチ層RNNへのアプローチを拡張した。
論文 参考訳(メタデータ) (2022-08-17T19:51:06Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - LHNN: Lattice Hypergraph Neural Network for VLSI Congestion Prediction [70.31656245793302]
格子ハイパーグラフ(格子ハイパーグラフ)は、回路のための新しいグラフ定式化である。
LHNNは、F1スコアのU-netやPix2Pixと比べて、35%以上の改善を常に達成している。
論文 参考訳(メタデータ) (2022-03-24T03:31:18Z) - DNN Training Acceleration via Exploring GPGPU Friendly Sparsity [16.406482603838157]
本稿では、従来のランダムなニューロンやシナプスのドロップアウトを、通常のオンラインの行ベースもしくはタイルベースのドロップアウトパターンに置き換える近似ランダムドロップアウトを提案する。
次に,SGDに基づく探索アルゴリズムを開発し,行ベースあるいはタイルベースのドロップアウトパターンの分布を生成し,潜在的な精度損失を補う。
また,入力特徴図をその感度に基づいて動的にドロップアウトし,前向きおよび後向きのトレーニングアクセラレーションを実現するための感度対応ドロップアウト手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T01:32:03Z) - Temporal Efficient Training of Spiking Neural Network via Gradient
Re-weighting [29.685909045226847]
脳にインスパイアされたスパイクニューロンネットワーク(SNN)は、事象駆動的でエネルギー効率のよい特徴から、広く研究の関心を集めている。
シュロゲート勾配による現在の直接訓練手法は、一般化性に乏しいSNNに結果をもたらす。
SGによる勾配降下時の運動量の減少を補うための時間的効率訓練(TET)手法を導入する。
論文 参考訳(メタデータ) (2022-02-24T08:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。