論文の概要: Adaptive Braking for Mitigating Gradient Delay
- arxiv url: http://arxiv.org/abs/2007.01397v2
- Date: Fri, 10 Jul 2020 17:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:01:56.645836
- Title: Adaptive Braking for Mitigating Gradient Delay
- Title(参考訳): 勾配遅延緩和のための適応制動
- Authors: Abhinav Venigalla and Atli Kosson and Vitaliy Chiley and Urs K\"oster
- Abstract要約: 適応ブレーキ(Adaptive Braking)は、運動量に基づく勾配の修正であり、勾配遅延の影響を緩和する。
本研究では,SGD 上の AB を運動量で適用することにより,CIFAR-10 と ImageNet-1k 上の ResNet を最終テスト精度で最小限の遅延でトレーニングできることを示す。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network training is commonly accelerated by using multiple
synchronized workers to compute gradient updates in parallel. Asynchronous
methods remove synchronization overheads and improve hardware utilization at
the cost of introducing gradient delay, which impedes optimization and can lead
to lower final model performance. We introduce Adaptive Braking (AB), a
modification for momentum-based optimizers that mitigates the effects of
gradient delay. AB dynamically scales the gradient based on the alignment of
the gradient and the velocity. This can dampen oscillations along high
curvature directions of the loss surface, stabilizing and accelerating
asynchronous training. We show that applying AB on top of SGD with momentum
enables training ResNets on CIFAR-10 and ImageNet-1k with delays $D \geq$ 32
update steps with minimal drop in final test accuracy.
- Abstract(参考訳): ニューラルネットワークトレーニングは、複数の同期ワーカーを使用して並列に勾配更新を計算することで、一般的に加速される。
非同期メソッドは同期のオーバーヘッドを取り除き、勾配遅延を導入するコストでハードウェア利用を改善する。
我々は,勾配遅延の影響を緩和する運動量に基づくオプティマイザの修正であるadaptive braking (ab)を導入する。
ABは勾配と速度のアライメントに基づいて勾配を動的にスケールする。
これにより、損失面の高曲率方向に沿って振動を減衰させ、安定化し、非同期トレーニングを加速することができる。
CIFAR-10 と ImageNet-1k 上の ResNet を CIFAR-10 および ImageNet-1k 上で,SGD 上の AB を運動量で適用することにより,最終テスト精度を最小限に抑えることができることを示す。
関連論文リスト
- Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。
本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。
また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文 参考訳(メタデータ) (2024-12-16T13:48:40Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - MetaGrad: Adaptive Gradient Quantization with Hypernetworks [46.55625589293897]
量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。
本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。
CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
論文 参考訳(メタデータ) (2023-03-04T07:26:34Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Scaling transition from momentum stochastic gradient descent to plain
stochastic gradient descent [1.7874193862154875]
運動量勾配降下は、蓄積された勾配を電流パラメータの更新方向として利用する。
平坦勾配降下は, 累積勾配により補正されていない。
TSGDアルゴリズムは訓練速度が速く、精度が高く、安定性も向上している。
論文 参考訳(メタデータ) (2021-06-12T11:42:04Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。