論文の概要: When does gradient descent with logistic loss interpolate using deep
networks with smoothed ReLU activations?
- arxiv url: http://arxiv.org/abs/2102.04998v1
- Date: Tue, 9 Feb 2021 18:04:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:21:24.583197
- Title: When does gradient descent with logistic loss interpolate using deep
networks with smoothed ReLU activations?
- Title(参考訳): 滑らかなreluアクティベーションを持つディープネットワークを用いたロジスティック損失による勾配降下はいつ補間されるのか?
- Authors: Niladri S. Chatterji, Philip M. Long, Peter L. Bartlett
- Abstract要約: 固定幅深層ネットワークに適用された勾配勾配がロジスティック損失をゼロにする条件を確立する。
解析はSwishやHuberized ReLUといったReLUのスムーズな近似に適用する。
- 参考スコア(独自算出の注目度): 51.1848572349154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We establish conditions under which gradient descent applied to fixed-width
deep networks drives the logistic loss to zero, and prove bounds on the rate of
convergence. Our analysis applies for smoothed approximations to the ReLU, such
as Swish and the Huberized ReLU, proposed in previous applied work. We provide
two sufficient conditions for convergence. The first is simply a bound on the
loss at initialization. The second is a data separation condition used in prior
analyses.
- Abstract(参考訳): 固定幅深層ネットワークに適用された勾配勾配勾配がロジスティック損失をゼロにする条件を確立し,収束率の限界を証明した。
私たちの分析は、以前の適用作業で提案されたSwishやHuberized ReLUなどのReLUへの滑らかな近似に適用されます。
収束に十分な条件が2つある。
最初のものは、単に初期化時の損失の境界です。
2つ目は、事前分析に使用されるデータ分離条件です。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of shallow ReLU networks [6.458742319938318]
我々は、関連する力学系の結果の変種、中心安定な多様体定理を証明し、そこでは正規性要求のいくつかを緩和する。
浅部ReLUおよび漏洩ReLUネットワークに対する正方積分損失関数の臨界点の詳細な検討に基づいて、勾配降下がほとんどのサドル点を下降させることを示す。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - When does gradient descent with logistic loss find interpolating
two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。
データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文 参考訳(メタデータ) (2020-12-04T05:16:51Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。