論文の概要: Global Convergence of SGD On Two Layer Neural Nets
- arxiv url: http://arxiv.org/abs/2210.11452v2
- Date: Sat, 8 Apr 2023 14:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 21:40:48.292247
- Title: Global Convergence of SGD On Two Layer Neural Nets
- Title(参考訳): 2層ニューラルネットワーク上でのSGDのグローバル収束
- Authors: Pulkit Gopalani and Anirbit Mukherjee
- Abstract要約: 我々は,SGDの適切な正規化された$elldinger-$empirical risk of depth $2$ netsのグローバルミニマへの証明可能な収束を示す。
我々は、適切な分布から初期重みのサンプリングとともに、重みに対する一定の量のフロベニウス正則化を利用する。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this note we demonstrate provable convergence of SGD to the global minima
of appropriately regularized $\ell_2-$empirical risk of depth $2$ nets -- for
arbitrary data and with any number of gates, if they are using adequately
smooth and bounded activations like sigmoid and tanh. We build on the results
in [1] and leverage a constant amount of Frobenius norm regularization on the
weights, along with sampling of the initial weights from an appropriate
distribution. We also give a continuous time SGD convergence result that also
applies to smooth unbounded activations like SoftPlus. Our key idea is to show
the existence loss functions on constant sized neural nets which are "Villani
Functions". [1] Bin Shi, Weijie J. Su, and Michael I. Jordan. On learning rates
and schr\"odinger operators, 2020. arXiv:2004.06977
- Abstract(参考訳): 本稿では,sgmoid や tanh のような十分に滑らかで有界なアクティベーションを使用している場合,任意のデータと任意の数のゲートに対して$\ell_2-$empirical risk of depth$$ nets -- を適切に正規化した$\ell_2-$empirical risk of depth $2$ nets -- のグローバルミニマへの sgd の収束を示す。
我々は [1] で結果の上に構築し、適切な分布から初期重みのサンプリングとともに、重みに対するフロベニウスノルム正規化の定数量を利用する。
また、SoftPlusのようなスムーズな非有界活性化にも適用可能な連続時間SGD収束結果を与える。
私たちのキーとなるアイデアは、"ヴィラニ関数"である一定サイズのニューラルネット上の損失関数を示すことです。
Bin Shi, Weijie J. Su, and Michael I. Jordan
学習率とschr\"odinger operator, 2020について
arXiv:2004.06977
関連論文リスト
- Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets [0.20482269513546453]
我々は,SGDのグローバル・ミニマへの第一種収束性を示す。
鍵となる考え方は、定数サイズのニューラルネット上のフロベニウスノルム正規化ロジスティック損失関数の存在を示すことである。
論文 参考訳(メタデータ) (2023-09-17T12:44:07Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Stability and Generalization of lp-Regularized Stochastic Learning for
GCN [9.517209629978057]
グラフ畳み込みネットワーク(GCN)は、グラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つである。
本稿では,一般的な$ell_p$-regularized $ (1pleq 2)$ Learningアルゴリズムを用いて,GCNの滑らかさと疎さのトレードオフを定量化する。
論文 参考訳(メタデータ) (2023-05-20T03:49:29Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Feature selection with gradient descent on two-layer networks in
low-rotation regimes [20.41989568533313]
本研究では,2層ReLUネットワーク上での勾配流(GF)と勾配勾配勾配(SGD)の低試験誤差を確立する。
マージンをコア分析技術として利用する。
論文 参考訳(メタデータ) (2022-08-04T17:43:36Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Convergence Rates of Stochastic Gradient Descent under Infinite Noise
Variance [14.06947898164194]
ヘビーテールは様々なシナリオで勾配降下 (sgd) で現れる。
SGDの収束保証は、潜在的に無限のばらつきを持つ状態依存性および重尾ノイズ下で提供します。
その結果,SGDは無限に分散した重尾雑音下であっても,地球最適値に収束できることが示された。
論文 参考訳(メタデータ) (2021-02-20T13:45:11Z) - On the Global Convergence of Training Deep Linear ResNets [104.76256863926629]
我々は、$L$-hidden-layer linear residual network(ResNets)のトレーニングのための勾配降下(GD)と勾配降下(SGD)の収束について検討する。
入力層と出力層で一定の線形変換を施したディープ残差ネットワークのトレーニングを行う場合,GDとSGDは共に,トレーニング損失の最小限に収束できることを示す。
論文 参考訳(メタデータ) (2020-03-02T18:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。