論文の概要: Revisiting SGD with Increasingly Weighted Averaging: Optimization and
Generalization Perspectives
- arxiv url: http://arxiv.org/abs/2003.04339v3
- Date: Wed, 27 May 2020 01:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:16:50.603457
- Title: Revisiting SGD with Increasingly Weighted Averaging: Optimization and
Generalization Perspectives
- Title(参考訳): 重み付け平均化によるSGDの再検討:最適化と一般化の展望
- Authors: Zhishuai Guo, Yan Yan and Tianbao Yang
- Abstract要約: 平均化手法は、全ての反復解を一つの解に結合する。
実験は、他の平均化方式と比較して、トレードオフと平均化の有効性を示した。
- 参考スコア(独自算出の注目度): 50.12802772165797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent (SGD) has been widely studied in the literature
from different angles, and is commonly employed for solving many big data
machine learning problems. However, the averaging technique, which combines all
iterative solutions into a single solution, is still under-explored. While some
increasingly weighted averaging schemes have been considered in the literature,
existing works are mostly restricted to strongly convex objective functions and
the convergence of optimization error. It remains unclear how these averaging
schemes affect the convergence of {\it both optimization error and
generalization error} (two equally important components of testing error) for
{\bf non-strongly convex objectives, including non-convex problems}. In this
paper, we {\it fill the gap} by comprehensively analyzing the increasingly
weighted averaging on convex, strongly convex and non-convex objective
functions in terms of both optimization error and generalization error. In
particular, we analyze a family of increasingly weighted averaging, where the
weight for the solution at iteration $t$ is proportional to $t^{\alpha}$
($\alpha > 0$). We show how $\alpha$ affects the optimization error and the
generalization error, and exhibit the trade-off caused by $\alpha$. Experiments
have demonstrated this trade-off and the effectiveness of polynomially
increased weighted averaging compared with other averaging schemes for a wide
range of problems including deep learning.
- Abstract(参考訳): 確率勾配降下(SGD)は、様々な角度から文献で広く研究されており、多くのビッグデータ機械学習問題の解法として一般的に用いられている。
しかし、全ての反復解を単一の解に結合する平均化手法はまだ未検討のままである。
重み付けされた平均化スキームが文献で検討されているが、既存の作品はほとんどが強凸目的関数と最適化誤差の収束に制限されている。
これらの平均化スキームが、非凸問題を含む {\bf の非強凸目的に対して、最適化誤差と一般化誤差の両方の収束にどのように影響するかは、まだ不明である。
本稿では,最適化誤差と一般化誤差の両方の観点から,凸,強凸,非凸目的関数の重み付け平均を包括的に解析することによって,ギャップを埋める。
特に、ますます重み付けが増す平均化の族を分析し、イテレーション $t$ の解の重みは $t^{\alpha}$ (\alpha > 0$) に比例する。
我々は$\alpha$が最適化誤差と一般化誤差にどのように影響するかを示し、$\alpha$によるトレードオフを示す。
このトレードオフと多項式的に重み付き平均化の有効性を、ディープラーニングを含む幅広い問題に対する他の平均化方式と比較して実証した。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - A framework for bilevel optimization that enables stochastic and global
variance reduction algorithms [17.12280360174073]
双レベル最適化は、他の関数のarg最小値を含む値関数を最小化する問題である。
本稿では, 内部問題の解, 線形系の解, 主変数を同時に発展させる新しい枠組みを提案する。
我々のフレームワークにおけるSAGAアルゴリズムの適応であるSABAは$O(frac1T)$収束率を持ち、Polyak-Lojasciewicz仮定の下で線形収束を達成することを示した。
論文 参考訳(メタデータ) (2022-01-31T18:17:25Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - The Strength of Nesterov's Extrapolation in the Individual Convergence
of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。
提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。
本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文 参考訳(メタデータ) (2020-06-08T03:35:41Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。