論文の概要: Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias
- arxiv url: http://arxiv.org/abs/2110.13905v1
- Date: Tue, 26 Oct 2021 17:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:47:15.567722
- Title: Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias
- Title(参考訳): 2層ネット上のグラディエントDescent:Margin MaximizationとSimplicity Bias
- Authors: Kaifeng Lyu, Zhiyuan Li, Runzhe Wang, Sanjeev Arora
- Abstract要約: 実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
- 参考スコア(独自算出の注目度): 34.81794649454105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization mystery of overparametrized deep nets has motivated
efforts to understand how gradient descent (GD) converges to low-loss solutions
that generalize well. Real-life neural networks are initialized from small
random values and trained with cross-entropy loss for classification (unlike
the "lazy" or "NTK" regime of training where analysis was more successful), and
a recent sequence of results (Lyu and Li, 2020; Chizat and Bach, 2020; Ji and
Telgarsky, 2020) provide theoretical evidence that GD may converge to the
"max-margin" solution with zero loss, which presumably generalizes well.
However, the global optimality of margin is proved only in some settings where
neural nets are infinitely or exponentially wide. The current paper is able to
establish this global optimality for two-layer Leaky ReLU nets trained with
gradient flow on linearly separable and symmetric data, regardless of the
width. The analysis also gives some theoretical justification for recent
empirical findings (Kalimeris et al., 2019) on the so-called simplicity bias of
GD towards linear or other "simple" classes of solutions, especially early in
training. On the pessimistic side, the paper suggests that such results are
fragile. A simple data manipulation can make gradient flow converge to a linear
classifier with suboptimal margin.
- Abstract(参考訳): 過度にパラメータ化されたディープネットの一般化ミステリーは、勾配降下(GD)がよく一般化される低損失解にどのように収束するかを理解するために動機づけられた。
実生活のニューラルネットワークは、小さなランダムな値から初期化され、分類のためのクロスエントロピー損失(分析がより成功した「怠慢」や「NTK」の体系とは違って)で訓練され、最近の一連の結果(Lyu and Li, 2020; Chizat and Bach, 2020; Ji and Telgarsky, 2020)は、GDがゼロ損失の「マックスマージン」解に収束できるという理論的証拠を提供する。
しかし、マージンのグローバルな最適性は、ニューラルネットが無限にまたは指数関数的に広い設定でのみ証明される。
本論文は, 線形分離性と対称性によらず, 勾配流で訓練された2層リーク型リルーネットのこの大域的最適性を確立することができる。
この分析はまた、gdが線形あるいは他の「単純」な解のクラス、特にトレーニングの早い段階に対して、いわゆる単純バイアスについて、最近の経験的知見(kalimeris et al., 2019)に対する理論的正当性も与えている。
悲観的な側面から、論文はそのような結果は壊れやすいことを示唆している。
単純なデータ操作により、勾配フローを最適化マージンの線形分類器に収束させることができる。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Implicit Regularization Towards Rank Minimization in ReLU Networks [34.41953136999683]
ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
論文 参考訳(メタデータ) (2022-01-30T09:15:44Z) - A global convergence theory for deep ReLU implicit networks via
over-parameterization [26.19122384935622]
暗黙の深層学習は近年注目を集めている。
本稿では,Rectified Linear Unit (ReLU) 活性化暗黙的ニューラルネットワークの勾配流れを解析する。
論文 参考訳(メタデータ) (2021-10-11T23:22:50Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - The Implicit Bias of Gradient Descent on Separable Data [44.98410310356165]
予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。
これは、トレーニングエラーがゼロになった後もロジスティックまたはクロスエントロピー損失を最適化し続ける利点を説明するのに役立つ。
論文 参考訳(メタデータ) (2017-10-27T21:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。