論文の概要: Global Convergence of SGD On Two Layer Neural Nets
- arxiv url: http://arxiv.org/abs/2210.11452v3
- Date: Sat, 21 Dec 2024 17:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:12.169858
- Title: Global Convergence of SGD On Two Layer Neural Nets
- Title(参考訳): 2層ニューラルネットワーク上でのSGDのグローバル収束
- Authors: Pulkit Gopalani, Anirbit Mukherjee,
- Abstract要約: 我々は,任意の数のゲートを持つ深さ2ドルのネットを適宜正規化した$ell-$empirical risk of depthとみなす。
任意のデータに対して、SGDアンバウンドに対する経験的損失がどのように進化するか、またアクティベーションが適切に滑らかでシグモイドやタンのようにバウンドされているかどうかについて、バウンドを示す。
- 参考スコア(独自算出の注目度): 0.2302001830524133
- License:
- Abstract: In this note, we consider appropriately regularized $\ell_2-$empirical risk of depth $2$ nets with any number of gates and show bounds on how the empirical loss evolves for SGD iterates on it -- for arbitrary data and if the activation is adequately smooth and bounded like sigmoid and tanh. This in turn leads to a proof of global convergence of SGD for a special class of initializations. We also prove an exponentially fast convergence rate for continuous time SGD that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence of Frobenius norm regularized loss functions on constant-sized neural nets which are "Villani functions" and thus be able to build on recent progress with analyzing SGD on such objectives. Most critically the amount of regularization required for our analysis is independent of the size of the net.
- Abstract(参考訳): 本稿では,任意のゲート数を持つ深さ2ドルの経験的リスクを適切に正規化した$\ell_2-$empirical risk of depth $2$ nets を検討し,任意のデータに対してSGDに対する経験的損失がどのように進行するか,またアクティベーションがシグミドやタンのように適切にスムーズでバウンドされているかを示す。
これにより、特別な初期化のクラスに対するSGDの大域収束の証明が導かれる。
また、SoftPlusのようなスムーズな非有界な活性化にも適用可能な、連続時間 SGD に対する指数関数的に高速な収束速度を証明した。
我々のキーとなる考え方は、「ビラニ関数」である定数サイズのニューラルネット上でのフロベニウスノルム正規化損失関数の存在を示し、そのような目的に基づいてSGDを分析することで最近の進歩を構築することができることである。
最も重要なのは、我々の分析に必要な正規化の量は、網の大きさとは無関係である。
関連論文リスト
- On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets [0.20482269513546453]
我々は,SGDのグローバル・ミニマへの第一種収束性を示す。
鍵となる考え方は、定数サイズのニューラルネット上のフロベニウスノルム正規化ロジスティック損失関数の存在を示すことである。
論文 参考訳(メタデータ) (2023-09-17T12:44:07Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - SGD: The Role of Implicit Regularization, Batch-size and Multiple-epochs [30.41773138781369]
本稿では,現実に一般的に用いられているグラディエント・ディファイス(SGD)のマルチエポックな変種について述べる。
最悪の場合、これはシングルパスSGDと同程度であることを示す。
SCOの特定の問題に対して、データセットに複数のパスを取ることは、シングルパスSGDを著しく上回る。
論文 参考訳(メタデータ) (2021-07-11T15:50:01Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z) - On the Generalization of Stochastic Gradient Descent with Momentum [84.54924994010703]
運動量に基づく勾配降下(SGD)の加速変種は、機械学習モデルを訓練する際に広く用いられる。
まず,標準重球運動量(SGDM)を持つSGDの複数のエポックに対する安定性ギャップが非有界となる凸損失関数が存在することを示す。
滑らかなリプシッツ損失関数に対しては、修正モーメントベースの更新規則、すなわち、幅広いステップサイズで初期運動量(SGDEM)を解析する。
論文 参考訳(メタデータ) (2018-09-12T17:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。