論文の概要: Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks
- arxiv url: http://arxiv.org/abs/2006.07356v5
- Date: Sun, 28 May 2023 10:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 04:56:34.511406
- Title: Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks
- Title(参考訳): 2層ワイドニューラルネットワークを用いた平均正方形誤差回帰に対するグラディエントDescentのインプリシトバイアス
- Authors: Hui Jin, Guido Mont\'ufar
- Abstract要約: 幅$n$浅いReLUネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n-1/2$以内であることを示す。
また, トレーニング軌道はスムーズなスプラインの軌道によって捕捉され, 正規化強度は低下することを示した。
- 参考スコア(独自算出の注目度): 1.3706331473063877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate gradient descent training of wide neural networks and the
corresponding implicit bias in function space. For univariate regression, we
show that the solution of training a width-$n$ shallow ReLU network is within
$n^{- 1/2}$ of the function which fits the training data and whose difference
from the initial function has the smallest 2-norm of the second derivative
weighted by a curvature penalty that depends on the probability distribution
that is used to initialize the network parameters. We compute the curvature
penalty function explicitly for various common initialization procedures. For
instance, asymmetric initialization with a uniform distribution yields a
constant curvature penalty, and thence the solution function is the natural
cubic spline interpolation of the training data. \hj{For stochastic gradient
descent we obtain the same implicit bias result.} We obtain a similar result
for different activation functions. For multivariate regression we show an
analogous result, whereby the second derivative is replaced by the Radon
transform of a fractional Laplacian. For initialization schemes that yield a
constant penalty function, the solutions are polyharmonic splines. Moreover, we
show that the training trajectories are captured by trajectories of smoothing
splines with decreasing regularization strength.
- Abstract(参考訳): 広帯域ニューラルネットワークの勾配降下訓練とそれに対応する関数空間の暗黙バイアスについて検討する。
不定回帰の場合、幅=n$の浅いreluネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n^{- 1/2}$以内であり、その初期関数との差は、ネットワークパラメータの初期化に使用される確率分布に依存する曲率ペナルティによって重み付けられた第2導関数の最小の2-ノルムである。
様々な共通初期化手順の曲率ペナルティ関数を明示的に計算する。
例えば、一様分布を持つ非対称初期化は一定曲率のペナルティをもたらし、従って解関数は訓練データの自然な立方体スプライン補間である。
確率的勾配降下では、同じ暗黙のバイアス結果が得られる。
} 異なるアクティベーション関数に対して同様の結果が得られる。
多変量回帰に対しては類似の結果を示し、第二微分は分数ラプラシアンのラドン変換に置き換えられる。
一定のペナルティ関数をもたらす初期化スキームに対して、解は多調和スプラインである。
また, トレーニングトラジェクタを平滑化スプラインの軌道に捕捉し, 正則化強度を低下させることを示した。
関連論文リスト
- Benign Overfitting for Regression with Trained Two-Layer ReLU Networks [14.36840959836957]
本稿では,2層完全連結ニューラルネットワークを用いた最小二乗回帰問題と,勾配流によるReLU活性化関数について検討する。
最初の結果は一般化結果であり、基礎となる回帰関数や、それらが有界であること以外のノイズを仮定する必要はない。
論文 参考訳(メタデータ) (2024-10-08T16:54:23Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - A Unifying View on Implicit Bias in Training Linear Neural Networks [31.65006970108761]
線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
論文 参考訳(メタデータ) (2020-10-06T06:08:35Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。