論文の概要: Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias
- arxiv url: http://arxiv.org/abs/2110.13905v1
- Date: Tue, 26 Oct 2021 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:47:15.567722
- Title: Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias
- Title(参考訳): 2層ネット上のグラディエントDescent:Margin MaximizationとSimplicity Bias
- Authors: Kaifeng Lyu, Zhiyuan Li, Runzhe Wang, Sanjeev Arora
- Abstract要約: 実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
- 参考スコア(独自算出の注目度): 34.81794649454105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization mystery of overparametrized deep nets has motivated
efforts to understand how gradient descent (GD) converges to low-loss solutions
that generalize well. Real-life neural networks are initialized from small
random values and trained with cross-entropy loss for classification (unlike
the "lazy" or "NTK" regime of training where analysis was more successful), and
a recent sequence of results (Lyu and Li, 2020; Chizat and Bach, 2020; Ji and
Telgarsky, 2020) provide theoretical evidence that GD may converge to the
"max-margin" solution with zero loss, which presumably generalizes well.
However, the global optimality of margin is proved only in some settings where
neural nets are infinitely or exponentially wide. The current paper is able to
establish this global optimality for two-layer Leaky ReLU nets trained with
gradient flow on linearly separable and symmetric data, regardless of the
width. The analysis also gives some theoretical justification for recent
empirical findings (Kalimeris et al., 2019) on the so-called simplicity bias of
GD towards linear or other "simple" classes of solutions, especially early in
training. On the pessimistic side, the paper suggests that such results are
fragile. A simple data manipulation can make gradient flow converge to a linear
classifier with suboptimal margin.
- Abstract(参考訳): 過度にパラメータ化されたディープネットの一般化ミステリーは、勾配降下(GD)がよく一般化される低損失解にどのように収束するかを理解するために動機づけられた。
実生活のニューラルネットワークは、小さなランダムな値から初期化され、分類のためのクロスエントロピー損失(分析がより成功した「怠慢」や「NTK」の体系とは違って)で訓練され、最近の一連の結果(Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020)は、GDがゼロ損失の「マックスマージン」解に収束できるという理論的証拠を提供する。
しかし、マージンのグローバルな最適性は、ニューラルネットが無限にまたは指数関数的に広い設定でのみ証明される。
本論文は, 線形分離性と対称性によらず, 勾配流で訓練された2層リーク型リルーネットのこの大域的最適性を確立することができる。
この分析はまた、gdが線形あるいは他の「単純」な解のクラス、特にトレーニングの早い段階に対して、いわゆる単純バイアスについて、最近の経験的知見(kalimeris et al., 2019)に対する理論的正当性も与えている。
悲観的な側面から、論文はそのような結果は壊れやすいことを示唆している。
単純なデータ操作により、勾配フローを最適化マージンの線形分類器に収束させることができる。
関連論文リスト
- Convex Relaxations of ReLU Neural Networks Approximate Global Optima in
Polynomial Time [54.01594785269913]
本稿では, 重み劣化と凸緩和に則った2層ReLUネットワーク間の最適性ギャップについて述べる。
トレーニングデータがランダムである場合、元の問題と緩和の間の相対的な最適性ギャップは、サンプルの勾配によって境界付けられることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [67.21528544724546]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせずに、事前訓練された小型モデルを得るための一段階のソリューションを提案する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。