論文の概要: Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction
- arxiv url: http://arxiv.org/abs/2301.03573v1
- Date: Mon, 9 Jan 2023 18:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 15:28:46.070497
- Title: Balance is Essence: Accelerating Sparse Training via Adaptive Gradient
Correction
- Title(参考訳): バランスはエッセンス:適応的勾配補正によるスパーストレーニングの加速
- Authors: Bowen Lei, Dongkuan Xu, Ruqi Zhang, Shuren He, Bani K. Mallick
- Abstract要約: スパーストレーニングは、メモリと計算コストを削減する最も一般的な手法の1つである。
我々はスパーストレーニングの収束を加速し安定化させる適応的勾配補正法を開発した。
本手法は, 一般的なスパース訓練パイプラインにおいて, 標準と逆の双方で使用することができる。
- 参考スコア(独自算出の注目度): 15.098940858799038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite impressive performance on a wide variety of tasks, deep neural
networks require significant memory and computation costs, prohibiting their
application in resource-constrained scenarios. Sparse training is one of the
most common techniques to reduce these costs, however, the sparsity constraints
add difficulty to the optimization, resulting in an increase in training time
and instability. In this work, we aim to overcome this problem and achieve
space-time co-efficiency. To accelerate and stabilize the convergence of sparse
training, we analyze the gradient changes and develop an adaptive gradient
correction method. Specifically, we approximate the correlation between the
current and previous gradients, which is used to balance the two gradients to
obtain a corrected gradient. Our method can be used with most popular sparse
training pipelines under both standard and adversarial setups. Theoretically,
we prove that our method can accelerate the convergence rate of sparse
training. Extensive experiments on multiple datasets, model architectures, and
sparsities demonstrate that our method outperforms leading sparse training
methods by up to \textbf{5.0\%} in accuracy given the same number of training
epochs, and reduces the number of training epochs by up to \textbf{52.1\%} to
achieve the same accuracy.
- Abstract(参考訳): さまざまなタスクにおける優れたパフォーマンスにもかかわらず、ディープニューラルネットワークは、リソース制約のあるシナリオでの応用を禁止し、メモリと計算コストを大幅に削減する必要がある。
スパーストレーニングはこれらのコストを削減する最も一般的な手法の1つであるが、スパース制約は最適化に困難をもたらし、トレーニング時間と不安定性が増大する。
本研究では,この問題を克服し,時空協調効率の実現を目指す。
スパーストレーニングの収束を加速・安定化するために,勾配変化を分析し,適応勾配補正法を開発した。
具体的には,2つの勾配のバランスを取って補正勾配を得るために用いられる電流勾配と先行勾配の相関を近似する。
本手法は, 一般的なスパース訓練パイプラインにおいて, 標準と逆の双方で使用することができる。
理論上,本手法はスパーストレーニングの収束速度を加速できることを実証する。
複数のデータセット、モデルアーキテクチャ、スパース性に関する広範囲な実験により、同じトレーニングエポック数を考慮すれば、本手法は、最大で偏ったトレーニングメソッドを最大で \textbf{5.0\%} の精度で上回り、同じ精度を達成するために最大で \textbf{52.1\%} のトレーニングエポック数を減少させることが示された。
関連論文リスト
- MetaGrad: Adaptive Gradient Quantization with Hypernetworks [46.55625589293897]
量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。
本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。
CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2023-03-04T07:26:34Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Efficient Neural Network Training via Forward and Backward Propagation
Sparsification [26.301103403328312]
本研究では, 完全スパース前方・後方パスを用いた効率的なスパーストレーニング手法を提案する。
私たちのアルゴリズムは、トレーニングプロセスを最大で桁違いに高速化する上で、はるかに効果的です。
論文 参考訳(メタデータ) (2021-11-10T13:49:47Z) - Adaptive Learning Rate and Momentum for Training Deep Neural Networks [0.0]
本研究では,非線形共役勾配(CG)フレームワークによる高速トレーニング手法を開発した。
画像分類データセットの実験により,本手法は他の局所解法よりも高速な収束が得られることが示された。
論文 参考訳(メタデータ) (2021-06-22T05:06:56Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文 参考訳(メタデータ) (2020-08-13T11:21:07Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。