論文の概要: Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets
- arxiv url: http://arxiv.org/abs/2309.09258v2
- Date: Sun, 17 Mar 2024 21:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 04:02:28.555577
- Title: Global Convergence of SGD For Logistic Loss on Two Layer Neural Nets
- Title(参考訳): 2層ニューラルネットワーク上でのロジスティック損失に対するSGDのグローバル収束
- Authors: Pulkit Gopalani, Samyak Jha, Anirbit Mukherjee,
- Abstract要約: 我々は,SGDのグローバル・ミニマへの第一種収束性を示す。
鍵となる考え方は、定数サイズのニューラルネット上のフロベニウスノルム正規化ロジスティック損失関数の存在を示すことである。
- 参考スコア(独自算出の注目度): 0.20482269513546453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this note, we demonstrate a first-of-its-kind provable convergence of SGD to the global minima of appropriately regularized logistic empirical risk of depth $2$ nets -- for arbitrary data and with any number of gates with adequately smooth and bounded activations like sigmoid and tanh. We also prove an exponentially fast convergence rate for continuous time SGD that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence of Frobenius norm regularized logistic loss functions on constant-sized neural nets which are "Villani functions" and thus be able to build on recent progress with analyzing SGD on such objectives.
- Abstract(参考訳): 本稿では、任意のデータとシグモイドやタンのような適切に滑らかで有界なアクティベーションを持つゲート数に対して、SGDが適切に正規化された2ドルネットのロジスティックな経験的リスクのグローバルミニマに、一級の証明可能な収束を実証する。
また、SoftPlusのようなスムーズな非有界な活性化にも適用可能な、連続時間 SGD に対する指数関数的に高速な収束速度を証明した。
我々のキーとなる考え方は、「ビラニ関数」である定数サイズのニューラルネット上でのフロベニウスノルム正規化ロジスティック損失関数の存在を示し、そのような目的に基づいてSGDを解析することによって最近の進歩を構築できることである。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - On the Trajectories of SGD Without Replacement [0.0]
本稿では,グラディエントDescence(SGD)の暗黙的正則化効果について検討する。
我々は、大規模なニューラルネットワークを最適化するために一般的に使用される変種である、置換のないSGDの場合を考える。
論文 参考訳(メタデータ) (2023-12-26T18:06:48Z) - Generalization Guarantees of Gradient Descent for Multi-Layer Neural
Networks [55.86300309474023]
多層NNに対する勾配降下(GD)の総合的安定性と一般化解析を行う。
2層NNと3層NNの両方において、GDアルゴリズムに対するO(1/sqrtn)$の過剰リスク率を導出する。
論文 参考訳(メタデータ) (2023-05-26T12:51:38Z) - Stability and Generalization of lp-Regularized Stochastic Learning for
GCN [9.517209629978057]
グラフ畳み込みネットワーク(GCN)は、グラフデータ上のグラフニューラルネットワークの変種の中で最も一般的な表現の1つである。
本稿では,一般的な$ell_p$-regularized $ (1pleq 2)$ Learningアルゴリズムを用いて,GCNの滑らかさと疎さのトレードオフを定量化する。
論文 参考訳(メタデータ) (2023-05-20T03:49:29Z) - Global Convergence of SGD On Two Layer Neural Nets [0.7614628596146599]
我々は,SGDの適切な正規化された$elldinger-$empirical risk of depth $2$ netsのグローバルミニマへの証明可能な収束を示す。
我々は、適切な分布から初期重みのサンプリングとともに、重みに対する一定の量のフロベニウス正則化を利用する。
論文 参考訳(メタデータ) (2022-10-20T17:50:46Z) - From Gradient Flow on Population Loss to Learning with Stochastic
Gradient Descent [50.4531316289086]
SGD(Gradient Descent)は、大規模非ルートモデルの学習方法である。
集団損失のGFが収束すると仮定して、総合的な条件 SGD が収束する。
我々は、凸損失のような古典的な設定だけでなく、Retrieval Matrix sq-rootのようなより複雑な問題に対してもGD/SGDを統一的に解析する。
論文 参考訳(メタデータ) (2022-10-13T03:55:04Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。