論文の概要: Implicit Regularization Towards Rank Minimization in ReLU Networks
- arxiv url: http://arxiv.org/abs/2201.12760v1
- Date: Sun, 30 Jan 2022 09:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-01 15:12:28.979553
- Title: Implicit Regularization Towards Rank Minimization in ReLU Networks
- Title(参考訳): ReLUネットワークにおけるランク最小化に向けた暗黙の正規化
- Authors: Nadav Timor, Gal Vardi, Ohad Shamir
- Abstract要約: ニューラルネットワークにおける暗黙の正規化とランク最小化の関係について検討する。
我々は非線形ReLUネットワークに焦点をあて、いくつかの新しい正および負の結果を提供する。
- 参考スコア(独自算出の注目度): 34.41953136999683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the conjectured relationship between the implicit regularization in
neural networks, trained with gradient-based methods, and rank minimization of
their weight matrices. Previously, it was proved that for linear networks (of
depth 2 and vector-valued outputs), gradient flow (GF) w.r.t. the square loss
acts as a rank minimization heuristic. However, understanding to what extent
this generalizes to nonlinear networks is an open problem. In this paper, we
focus on nonlinear ReLU networks, providing several new positive and negative
results. On the negative side, we prove (and demonstrate empirically) that,
unlike the linear case, GF on ReLU networks may no longer tend to minimize
ranks, in a rather strong sense (even approximately, for "most" datasets of
size 2). On the positive side, we reveal that ReLU networks of sufficient depth
are provably biased towards low-rank solutions in several reasonable settings.
- Abstract(参考訳): ニューラルネットワークにおける暗黙の正規化と勾配に基づく手法による学習,およびそれらの重み行列のランク最小化の関係について検討した。
従来、線形ネットワーク(深さ2とベクトル値出力)では、勾配流(GF)がランク最小化ヒューリスティックとして機能することが証明された。
しかし、これがいかに非線形ネットワークに一般化するかを理解することは、オープンな問題である。
本稿では,非線形ReLUネットワークに着目し,いくつかの新たな正および負の結果を提供する。
負の面では、線形の場合とは異なり、reluネットワーク上のgfは、かなり強い意味で(サイズ2の「ほぼ」データセットの場合であっても)ランクを最小にしがちである(実証的に証明する)。
正の面では、十分な深さのReLUネットワークがいくつかの合理的な設定で低ランクの解に確実に偏りがあることを明らかにする。
関連論文リスト
- Deep linear networks for regression are implicitly regularized towards flat minima [4.806579822134391]
最小化器は任意に大きいシャープ性を持つが、任意に小さいものは持たない。
最小化器のシャープネスは, 深さとともに線形に成長する。
平らなミニマに対して暗黙の正則性を示す: 最小化器の鋭さは下界の1倍以下である。
論文 参考訳(メタデータ) (2024-05-22T08:58:51Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - The Double-Edged Sword of Implicit Bias: Generalization vs. Robustness
in ReLU Networks [64.12052498909105]
本稿では,ReLUネットワークにおける勾配流の暗黙的バイアスが一般化と対角的ロバスト性に与える影響について検討する。
2層ReLUネットワークでは、勾配流は一般化された解に偏りがあるが、敵の例には非常に弱い。
論文 参考訳(メタデータ) (2023-03-02T18:14:35Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Gradient Descent on Two-layer Nets: Margin Maximization and Simplicity
Bias [34.81794649454105]
実生活ニューラルネットワークは、小さなランダムな値から成り、分類のためのクロスエントロピー損失を訓練する。
最近の結果は、勾配降下がゼロ損失を持つ「マックス・マルジン」解に収束していることを示し、これはおそらくよく一般化される。
現在の論文では、線形分離可能・対称データ上で勾配流を学習した2層ReLUネットに対して、この大域的最適性を確立することができる。
論文 参考訳(メタデータ) (2021-10-26T17:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。