論文の概要: Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data
- arxiv url: http://arxiv.org/abs/2310.18935v1
- Date: Sun, 29 Oct 2023 08:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:29:32.395969
- Title: Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data
- Title(参考訳): ほぼ直交データを用いた2層ReLUおよび漏洩ReLUネットワークにおける勾配の急激なバイアス
- Authors: Yiwen Kou and Zixiang Chen and Quanquan Gu
- Abstract要約: 好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
- 参考スコア(独自算出の注目度): 66.1211659120882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The implicit bias towards solutions with favorable properties is believed to
be a key reason why neural networks trained by gradient-based optimization can
generalize well. While the implicit bias of gradient flow has been widely
studied for homogeneous neural networks (including ReLU and leaky ReLU
networks), the implicit bias of gradient descent is currently only understood
for smooth neural networks. Therefore, implicit bias in non-smooth neural
networks trained by gradient descent remains an open question. In this paper,
we aim to answer this question by studying the implicit bias of gradient
descent for training two-layer fully connected (leaky) ReLU neural networks. We
showed that when the training data are nearly-orthogonal, for leaky ReLU
activation function, gradient descent will find a network with a stable rank
that converges to $1$, whereas for ReLU activation function, gradient descent
will find a neural network with a stable rank that is upper bounded by a
constant. Additionally, we show that gradient descent will find a neural
network such that all the training data points have the same normalized margin
asymptotically. Experiments on both synthetic and real data backup our
theoretical findings.
- Abstract(参考訳): 好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
したがって、勾配降下によって訓練された非滑らかなニューラルネットワークの暗黙バイアスは未解決の問題である。
本稿では,2層完全連結(リーキー)ReLUニューラルネットワークのトレーニングにおいて,勾配降下の暗黙バイアスを学習することにより,この問題に対処することを目的とする。
学習データはほぼ正方形であり,リークしたreluアクティベーション関数の場合,勾配降下は1ドルに収束する安定したランクのネットワークを見出すが,relu活性化関数では、勾配降下は定数によって上限が上限される安定したランクのニューラルネットワークを見つける。
さらに、勾配降下により、すべてのトレーニングデータポイントが漸近的に同じ正規化マージンを持つようなニューラルネットワークが見つかることを示す。
理論的な結果の合成と実データバックアップの実験。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。