Fugu-MT 論文翻訳(概要): Adaptive Braking for Mitigating Gradient Delay

論文の概要: Adaptive Braking for Mitigating Gradient Delay

arxiv url: http://arxiv.org/abs/2007.01397v2
Date: Fri, 10 Jul 2020 17:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 14:01:56.645836
Title: Adaptive Braking for Mitigating Gradient Delay
Title（参考訳）: 勾配遅延緩和のための適応制動
Authors: Abhinav Venigalla and Atli Kosson and Vitaliy Chiley and Urs K\"oster
Abstract要約: 適応ブレーキ(Adaptive Braking)は、運動量に基づく勾配の修正であり、勾配遅延の影響を緩和する。本研究では,SGD 上の AB を運動量で適用することにより,CIFAR-10 と ImageNet-1k 上の ResNet を最終テスト精度で最小限の遅延でトレーニングできることを示す。
参考スコア（独自算出の注目度）: 0.8602553195689513
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural network training is commonly accelerated by using multiple synchronized workers to compute gradient updates in parallel. Asynchronous methods remove synchronization overheads and improve hardware utilization at the cost of introducing gradient delay, which impedes optimization and can lead to lower final model performance. We introduce Adaptive Braking (AB), a modification for momentum-based optimizers that mitigates the effects of gradient delay. AB dynamically scales the gradient based on the alignment of the gradient and the velocity. This can dampen oscillations along high curvature directions of the loss surface, stabilizing and accelerating asynchronous training. We show that applying AB on top of SGD with momentum enables training ResNets on CIFAR-10 and ImageNet-1k with delays $D \geq$ 32 update steps with minimal drop in final test accuracy.
Abstract（参考訳）: ニューラルネットワークトレーニングは、複数の同期ワーカーを使用して並列に勾配更新を計算することで、一般的に加速される。非同期メソッドは同期のオーバーヘッドを取り除き、勾配遅延を導入するコストでハードウェア利用を改善する。我々は,勾配遅延の影響を緩和する運動量に基づくオプティマイザの修正であるadaptive braking (ab)を導入する。 ABは勾配と速度のアライメントに基づいて勾配を動的にスケールする。これにより、損失面の高曲率方向に沿って振動を減衰させ、安定化し、非同期トレーニングを加速することができる。 CIFAR-10 と ImageNet-1k 上の ResNet を CIFAR-10 および ImageNet-1k 上で,SGD 上の AB を運動量で適用することにより,最終テスト精度を最小限に抑えることができることを示す。

関連論文リスト

Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models [53.087070073434845]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低レイテンシの予算で画像品質が劣化することが多い。本稿では、各ODEステップに複数の並列勾配評価を組み込むことで、トランケーションエラーを軽減する新しいODEソルバであるEnsemble Parallel Direction Solutionrを提案する。
論文参考訳（メタデータ） (2025-07-20T03:08:06Z)
Nesterov Method for Asynchronous Pipeline Parallel Optimization [59.79227116582264]
パイプライン並列処理における非同期最適化のために,Nesterov Accelerated Gradient (NAG) の変種を導入する。具体的には、NAGのルックアヘッドステップを変更して、勾配の安定性を効果的に解決する。我々は、勾配の固定遅延の存在下で、我々のアプローチがサブ線形速度で収束することを理論的に証明する。
論文参考訳（メタデータ） (2025-05-02T08:23:29Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文参考訳（メタデータ） (2024-12-16T13:48:40Z)
Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。 PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文参考訳（メタデータ） (2024-10-08T12:32:36Z)
Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。 FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文参考訳（メタデータ） (2024-03-06T05:13:28Z)
MetaGrad: Adaptive Gradient Quantization with Hypernetworks [46.55625589293897]
量子化対応トレーニング(QAT)は、ニューラルネットワークのトレーニングと推論の間、前方通過を加速する。本稿では,ハイパーネットワークを用いた次のトレーニングの計算グラフに勾配を組み込むことで,この問題を解決することを提案する。 CNNネットワークアーキテクチャの異なるCIFAR-10データセットに対する様々な実験により、我々のハイパーネットワークに基づくアプローチは、勾配量子化ノイズの負の効果を効果的に低減できることを示した。
論文参考訳（メタデータ） (2023-03-04T07:26:34Z)
Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。 Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文参考訳（メタデータ） (2022-08-13T16:04:39Z)
GBA: A Tuning-free Approach to Switch between Synchronous and Asynchronous Training for Recommendation Model [19.65557684234458]
パラメータサーバ(PS)上のグローバルバッチ勾配集約(GBA)を提案する。トークン制御プロセスは、勾配を組み立て、厳密な安定度で勾配を減衰させる。 3つの産業規模のレコメンデーション・タスクの実験から、GBAはスイッチングのための効果的なチューニング不要なアプローチであることが示された。
論文参考訳（メタデータ） (2022-05-23T05:22:42Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Scaling transition from momentum stochastic gradient descent to plain stochastic gradient descent [1.7874193862154875]
運動量勾配降下は、蓄積された勾配を電流パラメータの更新方向として利用する。平坦勾配降下は, 累積勾配により補正されていない。 TSGDアルゴリズムは訓練速度が速く、精度が高く、安定性も向上している。
論文参考訳（メタデータ） (2021-06-12T11:42:04Z)
Decreasing scaling transition from adaptive gradient descent to stochastic gradient descent [1.7874193862154875]
本稿では,適応勾配降下法から勾配勾配降下法DSTAdaへのスケーリング遷移を減少させる手法を提案する。実験の結果,DSTAdaは高速で精度が高く,安定性と堅牢性も向上した。
論文参考訳（メタデータ） (2021-06-12T11:28:58Z)
GradInit: Learning to Initialize Neural Networks for Stable and Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文参考訳（メタデータ） (2021-02-16T11:45:35Z)
Accumulated Decoupled Learning: Mitigating Gradient Staleness in Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。 ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文参考訳（メタデータ） (2020-12-03T11:52:55Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。