論文の概要: SVRG Meets AdaGrad: Painless Variance Reduction
- arxiv url: http://arxiv.org/abs/2102.09645v1
- Date: Thu, 18 Feb 2021 22:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 11:31:04.937334
- Title: SVRG Meets AdaGrad: Painless Variance Reduction
- Title(参考訳): SVRG、AdaGradと対談-無痛のばらつき軽減へ
- Authors: Benjamin Dubois-Taine, Sharan Vaswani, Reza Babanezhad, Mark Schmidt,
Simon Lacoste-Julien
- Abstract要約: 一般的なVR手法であるSVRGの完全適応型を提案する。
AdaSVRGはSVRGの内部ループでAdaGradを使用し、ステップサイズの選択に堅牢にします。
AdaSVRGのロバスト性と有効性を検証し、他の「ツインフリー」VR手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 34.42463428418348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variance reduction (VR) methods for finite-sum minimization typically require
the knowledge of problem-dependent constants that are often unknown and
difficult to estimate. To address this, we use ideas from adaptive gradient
methods to propose AdaSVRG, which is a fully adaptive variant of SVRG, a common
VR method. AdaSVRG uses AdaGrad in the inner loop of SVRG, making it robust to
the choice of step-size, and allowing it to adaptively determine the length of
each inner-loop. When minimizing a sum of $n$ smooth convex functions, we prove
that AdaSVRG requires $O(n + 1/\epsilon)$ gradient evaluations to achieve an
$\epsilon$-suboptimality, matching the typical rate, but without needing to
know problem-dependent constants. However, VR methods including AdaSVRG are
slower than SGD when used with over-parameterized models capable of
interpolating the training data. Hence, we also propose a hybrid algorithm that
can adaptively switch from AdaGrad to AdaSVRG, achieving the best of both
stochastic gradient and VR methods, but without needing to tune their
step-sizes. Via experiments on synthetic and standard real-world datasets, we
validate the robustness and effectiveness of AdaSVRG, demonstrating its
superior performance over other "tune-free" VR methods.
- Abstract(参考訳): 有限和最小化のための分散減少(VR)法は通常、しばしば未知で推定が難しい問題依存定数の知識を必要とする。
そこで本研究では,適応的勾配法(Adaptive gradient method, AdaSVRG)のアイデアを用いて,SVRGの完全適応版であるAdaSVRGを提案する。
AdaSVRGはSVRGの内ループにAdaGradを使用し、ステップサイズの選択に頑健であり、各内ループの長さを適応的に決定できる。
n$ の滑らかな凸関数の和を最小化する場合、adasvrg は通常のレートにマッチするが問題依存定数を知らずに $\epsilon$-suboptimality を達成するために$o(n + 1/\epsilon)$勾配評価が必要であることが証明される。
しかし、トレーニングデータを補間できる過パラメータモデルを使用する場合、AdaSVRGなどのVR手法はSGDよりも遅い。
そこで本研究では,アダグラードからアダスvrgへ適応的に切り替えることができるハイブリッドアルゴリズムを提案する。
合成および標準実世界のデータセットを用いた実験により,adasvrgのロバスト性と有効性を検証し,他の「チューンフリー」なvr手法よりも優れた性能を示す。
関連論文リスト
- A Coefficient Makes SVRG Effective [55.104068027239656]
SVRG (Variance Reduced Gradient) は理論的に説得力のある最適化手法である。
本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。
分析の結果,より深いネットワークでは,SVRGの分散低減項の強度は,トレーニングが進むにつれて小さくなり,低下することが明らかとなった。
論文 参考訳(メタデータ) (2023-11-09T18:47:44Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Greedy based Value Representation for Optimal Coordination in
Multi-agent Reinforcement Learning [64.05646120624287]
LVDとMVDの結合Q値関数を導出する。
最適な整合性を確保するために、最適なノードは独自のSTNである必要がある。
本手法は,様々なベンチマーク実験において,最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-22T08:14:50Z) - Adaptive Federated Minimax Optimization with Lower Complexities [82.51223883622552]
本稿では,これらのミニマックス問題の解法として,適応最小最適化アルゴリズム(AdaFGDA)を提案する。
運動量に基づく還元および局所SGD技術を構築し、様々な適応学習率を柔軟に組み込む。
論文 参考訳(メタデータ) (2022-11-14T12:32:18Z) - Simple and Optimal Stochastic Gradient Methods for Nonsmooth Nonconvex
Optimization [23.447011255046835]
非平滑正則化問題,有限サム問題,オンライン最適化問題において,定常点や局所最小値を求めるための勾配アルゴリズムを提案し,解析する。
まず,ProxSVRG+と呼ばれる減算の分散に基づく簡単な近似最適勾配アルゴリズムを提案する。
我々のアルゴリズムは、そのアルゴリズムとほぼ同等に単純であり、同様の最適率が得られることを示す。
論文 参考訳(メタデータ) (2022-08-22T02:40:35Z) - Adaptive Accelerated (Extra-)Gradient Methods with Variance Reduction [25.94147708122371]
AdaVRAE(Adaptive Variance Reduced Accelerated Extra-Gradient)とAdaVRAG(Adaptive Variance Reduced Accelerated Gradient)の2つの新しい適応VRアルゴリズムを提案する。
我々のアルゴリズムは滑らかさパラメータの知識を必要としない。
実世界のデータセットを用いた実験において,従来の手法と比較して,アルゴリズムの性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-01-28T18:07:25Z) - Randomized Stochastic Gradient Descent Ascent [37.887266927498395]
既存のアルゴリズムの堅牢性や逆転性といった機械学習問題の増加には、損失関数を最小化する必要がある。
より単純な理論解析によるループサイズを持つESGDAの変種であるRSGDA(Randomized SGD)を提案する。
論文 参考訳(メタデータ) (2021-11-25T16:44:19Z) - AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax
Optimization [104.96004056928474]
本稿では,非コンケーブ最小値問題に対する高速適応勾配降下法を提案する。
我々は,本手法が,ミニバッチサイズが$O(kappa2.5epsilon-3)$のより低いサンプル複雑性に達することを示す。
論文 参考訳(メタデータ) (2021-06-30T14:47:09Z) - Variance Reduced EXTRA and DIGing and Their Optimal Acceleration for
Strongly Convex Decentralized Optimization [69.49313819343992]
広範に使われているEXTRA法とDIG法を拡張し,VR-EXTRA法とVR-DIGing法という2つの手法を提案する。
提案されたVR-EXTRAは、$O(kappa_s+n)logfrac1epsilon)$グラデーション評価と$O(kappa_b+kappa_c)logfrac1epsilon)$通信ラウンドを必要とする。
提案されているVR-DIGingは、O(kappa_b+kappa)の通信コストが少し高い
論文 参考訳(メタデータ) (2020-09-09T15:48:44Z) - Variance reduction for Riemannian non-convex optimization with batch
size adaptation [36.79189106909088]
分散実験はバッチ降下を加速する技術として人気がある。
この戦略は,有限サム条件とオンライン条件の両方で,全収束関数の低次複雑度を実現することができることを示す。
具体的には、R-SRG が R-IDER とほぼ同値であることを証明する。
論文 参考訳(メタデータ) (2020-07-03T04:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。