論文の概要: The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks
- arxiv url: http://arxiv.org/abs/2306.17499v1
- Date: Fri, 30 Jun 2023 09:17:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:05:44.816110
- Title: The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks
- Title(参考訳): 多変量浅部ReLUネットワークにおけるミニマ安定性の欠如
- Authors: Mor Shpigel Nacson, Rotem Mulayoff, Greg Ongie, Tomer Michaeli, Daniel
Soudry
- Abstract要約: 本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
- 参考スコア(独自算出の注目度): 53.95175206863992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the type of solutions to which stochastic gradient descent converges
when used to train a single hidden-layer multivariate ReLU network with the
quadratic loss. Our results are based on a dynamical stability analysis. In the
univariate case, it was shown that linearly stable minima correspond to network
functions (predictors), whose second derivative has a bounded weighted $L^1$
norm. Notably, the bound gets smaller as the step size increases, implying that
training with a large step size leads to `smoother' predictors. Here we
generalize this result to the multivariate case, showing that a similar result
applies to the Laplacian of the predictor. We demonstrate the tightness of our
bound on the MNIST dataset, and show that it accurately captures the behavior
of the solutions as a function of the step size. Additionally, we prove a depth
separation result on the approximation power of ReLU networks corresponding to
stable minima of the loss. Specifically, although shallow ReLU networks are
universal approximators, we prove that stable shallow networks are not. Namely,
there is a function that cannot be well-approximated by stable single
hidden-layer ReLU networks trained with a non-vanishing step size. This is
while the same function can be realized as a stable two hidden-layer ReLU
network. Finally, we prove that if a function is sufficiently smooth (in a
Sobolev sense) then it can be approximated arbitrarily well using shallow ReLU
networks that correspond to stable solutions of gradient descent.
- Abstract(参考訳): 本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,確率勾配勾配が収束する解の種類について検討する。
この結果は動的安定性解析に基づいている。
単変数の場合、線形安定ミニマはネットワーク関数(予測子)に対応し、第二微分は有界重み付き$L^1$ノルムを持つことを示した。
特に、ステップサイズが大きくなるにつれてバウンダリが小さくなり、大きなステップサイズでのトレーニングが‘smoother’予測子につながることが示唆される。
ここで、この結果を多変量の場合に一般化し、同様の結果が予測子のラプラシアンに適用されることを示す。
我々は,MNISTデータセットの厳密さを実証し,ステップサイズの関数として解の挙動を正確に捉えていることを示す。
さらに,損失の安定な最小値に対応するreluネットワークの近似パワー上での深さ分離結果を示す。
具体的には、浅いReLUネットワークは普遍近似器であるが、安定な浅いネットワークはそうではないことを示す。
すなわち、安定な単一隠蔽層ReLUネットワークでは、不要なステップサイズで訓練できない関数が存在する。
これは、安定な2層ReLUネットワークとして、同じ機能を実現できる。
最後に、関数が十分に滑らか(ソボレフ意味で)であれば、勾配降下の安定解に対応する浅いreluネットワークを用いて任意に近似することができることを証明する。
関連論文リスト
- A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Approximating Positive Homogeneous Functions with Scale Invariant Neural
Networks [28.2446416597989]
まず,数直線測定によるスパースベクトルの回復について考察する。
この結果から,低ランク行列回復や位相回復を含む,より広範な回復問題に拡張する。
我々の結果は、逆問題に対するニューラルネットワークが典型的に非常に大きなリプシッツ定数を持つことを示す以前の研究の矛盾のように見えることに光を当てた。
論文 参考訳(メタデータ) (2023-08-05T10:17:04Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with
Linear Widths [25.237054775800164]
本稿では非線形ReLU活性化暗黙ネットワークにおける勾配流と勾配勾配の収束について検討する。
GF と GD のどちらも,暗黙的ネットワークの幅$m$ が標本サイズでテキストリニアであれば,線形速度で大域最小値に収束することが証明される。
論文 参考訳(メタデータ) (2022-05-16T06:07:56Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - On Connectivity of Solutions in Deep Learning: The Role of
Over-parameterization and Feature Quality [21.13299067136635]
パラメータ空間における2つの任意の点の接続を保証するための新しい条件を提案する。
この条件はドロップアウトの安定性よりも明らかに穏やかであり、低損失経路の発見問題とニューラルネットワークの記憶能力との関係を提供する。
論文 参考訳(メタデータ) (2021-02-18T23:44:08Z) - Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks [1.3706331473063877]
幅$n$浅いReLUネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n-1/2$以内であることを示す。
また, トレーニング軌道はスムーズなスプラインの軌道によって捕捉され, 正規化強度は低下することを示した。
論文 参考訳(メタデータ) (2020-06-12T17:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。