論文の概要: Nesterov acceleration despite very noisy gradients
- arxiv url: http://arxiv.org/abs/2302.05515v3
- Date: Thu, 31 Oct 2024 15:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:56.551407
- Title: Nesterov acceleration despite very noisy gradients
- Title(参考訳): 雑音勾配を呈するネステロフ加速
- Authors: Kanan Gupta, Jonathan W. Siegel, Stephan Wojtowytsch,
- Abstract要約: 我々はネステロフの加速勾配降下アルゴリズムの一般化を提案する。
AGNESは滑らかな凸と強い凸最小化タスクの加速を達成する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: We present a generalization of Nesterov's accelerated gradient descent algorithm. Our algorithm (AGNES) provably achieves acceleration for smooth convex and strongly convex minimization tasks with noisy gradient estimates if the noise intensity is proportional to the magnitude of the gradient at every point. Nesterov's method converges at an accelerated rate if the constant of proportionality is below 1, while AGNES accommodates any signal-to-noise ratio. The noise model is motivated by applications in overparametrized machine learning. AGNES requires only two parameters in convex and three in strongly convex minimization tasks, improving on existing methods. We further provide clear geometric interpretations and heuristics for the choice of parameters.
- Abstract(参考訳): 我々はネステロフの加速勾配降下アルゴリズムの一般化を提案する。
我々のアルゴリズム(AGNES)は、雑音強度が各点の勾配の大きさに比例するならば、ノイズ勾配推定を伴う滑らかな凸および強凸最小化タスクの加速を確実に達成する。
ネステロフの手法は比例定数が 1 未満であれば加速速度で収束するが、AGNES は任意の信号対雑音比を許容する。
ノイズモデルは、過度にパラメータ化された機械学習の応用によって動機付けられている。
AGNESは凸のパラメータを2つ、凸の最小化タスクを3つだけ必要としており、既存のメソッドを改善している。
さらにパラメータの選択について、明確な幾何学的解釈とヒューリスティックスを提供する。
関連論文リスト
- From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Tradeoffs between convergence rate and noise amplification for momentum-based accelerated optimization algorithms [8.669461942767098]
モーメントに基づく1次最適化アルゴリズムについて検討し, 繰り返しが付加的な白色雑音を受ける場合について検討した。
強い凸2次問題に対しては、雑音増幅の定量化のために最適化変数における誤差の定常分散を用いる。
雑音増幅と定位時間のバランスをとるアルゴリズムの2つのパラメータ化ファミリを導入する。
論文 参考訳(メタデータ) (2022-09-24T04:26:30Z) - Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep
Models [158.19276683455254]
アダプティブ勾配アルゴリズムは、重ボール加速の移動平均アイデアを借用し、勾配の第1次モーメントを正確に推定し、収束を加速する。
ネステロフ加速は、理論上はボール加速よりも早く収束し、多くの経験的ケースでも収束する。
本稿では,計算勾配の余分な計算とメモリオーバーヘッドを回避するため,Nesterov運動量推定法(NME)を提案する。
Adan は視覚変換器 (ViT と CNN) で対応する SoTA を上回り,多くの人気ネットワークに対して新たな SoTA を設定する。
論文 参考訳(メタデータ) (2022-08-13T16:04:39Z) - Accelerated SGD for Non-Strongly-Convex Least Squares [14.010916616909743]
非強凸設定における最小二乗回帰問題の近似を考察する。
本稿では,問題のノイズに依存して最適な予測誤差率を実現するための,最初の実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-03T14:39:33Z) - Nesterov Accelerated Shuffling Gradient Method for Convex Optimization [15.908060383231371]
このアルゴリズムは,統一シャッフル方式を用いて,$mathcalO (1/T)$の改善率を示す。
我々の収束解析は有界領域や有界勾配条件に関する仮定を必要としない。
数値シミュレーションはアルゴリズムの効率を実証する。
論文 参考訳(メタデータ) (2022-02-07T21:23:17Z) - A Unified Analysis of First-Order Methods for Smooth Games via Integral
Quadratic Constraints [10.578409461429626]
本研究では、滑らかで強可変なゲームやイテレーションのための一階法に積分二次的制約理論を適用する。
我々は、負の運動量法(NM)に対して、既知の下界と一致する複雑性$mathcalO(kappa1.5)$で、初めて大域収束率を与える。
一段階のメモリを持つアルゴリズムでは,バッチ毎に1回だけ勾配を問合せすれば,高速化は不可能であることを示す。
論文 参考訳(メタデータ) (2020-09-23T20:02:00Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。