論文の概要: Second-order step-size tuning of SGD for non-convex optimization
- arxiv url: http://arxiv.org/abs/2103.03570v1
- Date: Fri, 5 Mar 2021 10:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 09:40:50.440111
- Title: Second-order step-size tuning of SGD for non-convex optimization
- Title(参考訳): 非凸最適化のためのSGDの2次ステップサイズチューニング
- Authors: Camille Castera, J\'er\^ome Bolte, C\'edric F\'evotte, Edouard Pauwels
- Abstract要約: 本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。
古典的なbarzilai-borwein法のバージョンと見なすことができる新しい一階勾配法(ステップ調整sgd)を得る。
- 参考スコア(独自算出の注目度): 6.021787236982659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In view of a direct and simple improvement of vanilla SGD, this paper
presents a fine-tuning of its step-sizes in the mini-batch case. For doing so,
one estimates curvature, based on a local quadratic model and using only noisy
gradient approximations. One obtains a new stochastic first-order method
(Step-Tuned SGD) which can be seen as a stochastic version of the classical
Barzilai-Borwein method. Our theoretical results ensure almost sure convergence
to the critical set and we provide convergence rates. Experiments on deep
residual network training illustrate the favorable properties of our approach.
For such networks we observe, during training, both a sudden drop of the loss
and an improvement of test accuracy at medium stages, yielding better results
than SGD, RMSprop, or ADAM.
- Abstract(参考訳): 本稿では,バニラSGDの直接的かつ簡便な改良の観点から,ミニバッチケースのステップサイズを微調整する。
そのため、局所二次モデルに基づいて曲率を推定し、ノイズの勾配近似のみを用いる。
古典的barzilai-borwein法の確率的バージョンと見なすことができる新しい確率的一階法(ステップ調整sgd)を得る。
我々の理論的結果は、臨界集合への収束をほぼ確実にし、収束率を提供する。
ディープ残差ネットワークトレーニングの実験は、我々のアプローチの好ましい特性を示している。
このようなネットワークでは、トレーニング中に、損失の突然の低下と中程度のテスト精度の向上の両方を観察し、SGD、RMSprop、またはADAMよりも優れた結果をもたらします。
関連論文リスト
- Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Online Bootstrap Inference with Nonconvex Stochastic Gradient Descent
Estimator [0.0]
本稿では,凸問題の文脈における統計的推論のための勾配降下(SGD)の理論的性質について検討する。
多重誤差最小値を含む2つの干渉手順を提案する。
論文 参考訳(メタデータ) (2023-06-03T22:08:10Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。