論文の概要: Global Convergence of SGD On Two Layer Neural Nets
- arxiv url: http://arxiv.org/abs/2210.11452v3
- Date: Sat, 21 Dec 2024 17:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:12.169858
- Title: Global Convergence of SGD On Two Layer Neural Nets
- Title(参考訳): 2層ニューラルネットワーク上でのSGDのグローバル収束
- Authors: Pulkit Gopalani, Anirbit Mukherjee,
- Abstract要約: 我々は,任意の数のゲートを持つ深さ2ドルのネットを適宜正規化した$ell-$empirical risk of depthとみなす。
任意のデータに対して、SGDアンバウンドに対する経験的損失がどのように進化するか、またアクティベーションが適切に滑らかでシグモイドやタンのようにバウンドされているかどうかについて、バウンドを示す。
- 参考スコア(独自算出の注目度): 0.2302001830524133
- License:
- Abstract: In this note, we consider appropriately regularized $\ell_2-$empirical risk of depth $2$ nets with any number of gates and show bounds on how the empirical loss evolves for SGD iterates on it -- for arbitrary data and if the activation is adequately smooth and bounded like sigmoid and tanh. This in turn leads to a proof of global convergence of SGD for a special class of initializations. We also prove an exponentially fast convergence rate for continuous time SGD that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence of Frobenius norm regularized loss functions on constant-sized neural nets which are "Villani functions" and thus be able to build on recent progress with analyzing SGD on such objectives. Most critically the amount of regularization required for our analysis is independent of the size of the net.
- Abstract(参考訳): 本稿では,任意のゲート数を持つ深さ2ドルの経験的リスクを適切に正規化した$\ell_2-$empirical risk of depth $2$ nets を検討し,任意のデータに対してSGDに対する経験的損失がどのように進行するか,またアクティベーションがシグミドやタンのように適切にスムーズでバウンドされているかを示す。
これにより、特別な初期化のクラスに対するSGDの大域収束の証明が導かれる。
また、SoftPlusのようなスムーズな非有界な活性化にも適用可能な、連続時間 SGD に対する指数関数的に高速な収束速度を証明した。
我々のキーとなる考え方は、「ビラニ関数」である定数サイズのニューラルネット上でのフロベニウスノルム正規化損失関数の存在を示し、そのような目的に基づいてSGDを分析することで最近の進歩を構築することができることである。
最も重要なのは、我々の分析に必要な正規化の量は、網の大きさとは無関係である。
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets [0.20482269513546453]
我々は,SGDのグローバル・ミニマへの第一種収束性を示す。
鍵となる考え方は、定数サイズのニューラルネット上のフロベニウスノルム正規化ロジスティック損失関数の存在を示すことである。
論文 参考訳(メタデータ) (2023-09-17T12:44:07Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Stability and Generalization of lp-Regularized Stochastic Learning for
GCN [9.517209629978057]
グラフ畳み込みネットワーク(GCN)は、グラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つである。
本稿では,一般的な$ell_p$-regularized $ (1pleq 2)$ Learningアルゴリズムを用いて,GCNの滑らかさと疎さのトレードオフを定量化する。
論文 参考訳(メタデータ) (2023-05-20T03:49:29Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Feature selection with gradient descent on two-layer networks in
low-rotation regimes [20.41989568533313]
本研究では,2層ReLUネットワーク上での勾配流(GF)と勾配勾配勾配(SGD)の低試験誤差を確立する。
マージンをコア分析技術として利用する。
論文 参考訳(メタデータ) (2022-08-04T17:43:36Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。