論文の概要: Stability of SGD: Tightness Analysis and Improved Bounds
- arxiv url: http://arxiv.org/abs/2102.05274v1
- Date: Wed, 10 Feb 2021 05:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 19:01:18.614318
- Title: Stability of SGD: Tightness Analysis and Improved Bounds
- Title(参考訳): SGDの安定性:厚さ解析と改良境界
- Authors: Yikai Zhang, Wenjia Zhang, Sammy Bald, Vamsi Pingali, Chao Chen,
Mayank Goswami
- Abstract要約: グラディエント・Descent(SGD)に基づく手法は、実際によく一般化された大規模機械学習モデルの訓練に広く用いられている。
解析[18]は滑らかな関数に対して厳密であり、そうでなければ、どのような損失とデータに対して、分析は改善できるのか?
- 参考スコア(独自算出の注目度): 8.831597193643628
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic Gradient Descent (SGD) based methods have been widely used for
training large-scale machine learning models that also generalize well in
practice. Several explanations have been offered for this generalization
performance, a prominent one being algorithmic stability [18]. However, there
are no known examples of smooth loss functions for which the analysis can be
shown to be tight. Furthermore, apart from the properties of the loss function,
data distribution has also been shown to be an important factor in
generalization performance. This raises the question: is the stability analysis
of [18] tight for smooth functions, and if not, for what kind of loss functions
and data distributions can the stability analysis be improved? In this paper we
first settle open questions regarding tightness of bounds in the
data-independent setting: we show that for general datasets, the existing
analysis for convex and strongly-convex loss functions is tight, but it can be
improved for non-convex loss functions. Next, we give a novel and improved
data-dependent bounds: we show stability upper bounds for a large class of
convex regularized loss functions, with negligible regularization parameters,
and improve existing data-dependent bounds in the non-convex setting. We hope
that our results will initiate further efforts to better understand the
data-dependent setting under non-convex loss functions, leading to an improved
understanding of the generalization abilities of deep networks.
- Abstract(参考訳): Stochastic Gradient Descent (SGD) に基づく手法は、大規模機械学習モデルの訓練に広く用いられており、実際もよく一般化されている。
この一般化性能についていくつかの説明がなされており、アルゴリズム安定性が顕著である[18]。
しかし、解析がタイトであることを示すような滑らかな損失関数の例は知られていない。
さらに、損失関数の性質とは別に、データ分布も一般化性能の重要な要因であることが示されている。
18] の安定解析は滑らかな関数に密接なものなのか、それともどのような損失関数やデータ分布について、安定性解析は改善できるのか?
本稿では,データ非依存設定における境界の厳密性に関するオープンな疑問を最初に解決する。一般的なデータセットでは,既存の凸および強凸損失関数の解析は厳密であるが,非凸損失関数では改善できることを示す。
次に,新たに改良されたデータ依存境界,すなわち,非無視正規化パラメータを持つ大規模凸正規化損失関数の安定性上限を示すとともに,非凸設定における既存のデータ依存境界を改善する。
我々は,非凸損失関数の下でのデータ依存的設定をより深く理解するためのさらなる取り組みを開始することを期待し,ディープネットワークの一般化能力の理解を深める。
関連論文リスト
- Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - LEARN: An Invex Loss for Outlier Oblivious Robust Online Optimization [56.67706781191521]
敵は、学習者に未知の任意の数kの損失関数を破損させることで、外れ値を導入することができる。
我々は,任意の数kで損失関数を破損させることで,敵が外乱を発生させることができる,頑健なオンラインラウンド最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T17:08:31Z) - A Precise Characterization of SGD Stability Using Loss Surface Geometry [8.942671556572073]
Descent Gradient (SGD) は実世界の実証的な成功を証明しているが、理論的な理解は比較的限られている。
最近の研究は、その実用性に寄与する重要な要因である暗黙の正規化を照らしている。
論文 参考訳(メタデータ) (2024-01-22T19:46:30Z) - Time-Independent Information-Theoretic Generalization Bounds for SGLD [4.73194777046253]
ランゲヴィン力学データセットに対する新しい情報理論の一般化境界を提供する。
私たちの境界は滑らかさと散逸の仮定に基づいており、指数的ではない。
論文 参考訳(メタデータ) (2023-11-02T07:42:23Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Optimal Rates for Random Order Online Optimization [60.011653053877126]
敵が損失関数を選択できるカテットガルバー2020onlineについて検討するが、一様にランダムな順序で提示される。
2020onlineアルゴリズムが最適境界を達成し,安定性を著しく向上することを示す。
論文 参考訳(メタデータ) (2021-06-29T09:48:46Z) - The Sobolev Regularization Effect of Stochastic Gradient Descent [8.193914488276468]
平坦なミニマはモデル関数の勾配を正則化するので、平坦なミニマの優れた性能が説明できる。
また、勾配雑音の高次モーメントについても検討し、グローバル・ミニマ周辺でのSGDの線形解析により、グラディエント・ダセント(SGD)がこれらのモーメントに制約を課す傾向があることを示す。
論文 参考訳(メタデータ) (2021-05-27T21:49:21Z) - SGD for Structured Nonconvex Functions: Learning Rates, Minibatching and
Interpolation [17.199023009789308]
予想されるSGD(SGD)の仮定は、非アーティザン関数に対して日常的に使われている。
本稿では,スムーズな非線形設定への収束のパラダイムを示す。
また,異なるステップサイズ条件の理論的保証も提供する。
論文 参考訳(メタデータ) (2020-06-18T07:05:56Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Stability of Stochastic Gradient Descent on Nonsmooth Convex Losses [52.039438701530905]
任意のリプシッツ非平滑凸損失に対して,数種類の勾配勾配降下(SGD)に対して,鋭い上下境界を与える。
我々の限界は、極端に過剰な集団リスクを伴う、微分的にプライベートな非平滑凸最適化のための新しいアルゴリズムを導出することを可能にする。
論文 参考訳(メタデータ) (2020-06-12T02:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。