論文の概要: Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks
- arxiv url: http://arxiv.org/abs/2202.05510v1
- Date: Fri, 11 Feb 2022 08:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 02:32:59.680672
- Title: Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks
- Title(参考訳): ReLUネットワークにおける入射バイアスの支持ベクトルと勾配ダイナミクス
- Authors: Sangmin Lee, Byeongsu Sim, Jong Chul Ye
- Abstract要約: 単一ニューロンReLUネットワークのトレーニングにおけるパラメータ空間の勾配流れのダイナミクスについて検討する。
具体的には、ReLUネットワークにおいて、なぜ、どのようにしてReLUネットワークが一般化されるかにおいて重要な役割を果たすサポートベクトルの観点で、暗黙のバイアスを発見できる。
- 参考スコア(独自算出の注目度): 45.886537625951256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding implicit bias of gradient descent has been an important goal in
machine learning research. Unfortunately, even for a single-neuron ReLU
network, it recently proved impossible to characterize the implicit
regularization with the square loss by an explicit function of the norm of
model parameters. In order to close the gap between the existing theory and the
intriguing empirical behavior of ReLU networks, here we examine the gradient
flow dynamics in the parameter space when training single-neuron ReLU networks.
Specifically, we discover implicit bias in terms of support vectors in ReLU
networks, which play a key role in why and how ReLU networks generalize well.
Moreover, we analyze gradient flows with respect to the magnitude of the norm
of initialization, and show the impact of the norm in gradient dynamics.
Lastly, under some conditions, we prove that the norm of the learned weight
strictly increases on the gradient flow.
- Abstract(参考訳): 勾配降下の暗黙のバイアスを理解することは、機械学習研究の重要な目標である。
残念なことに、単一ニューロンReLUネットワークであっても、モデルパラメータのノルムの明示的な関数によって平方損失による暗黙の正規化を特徴付けることは不可能である。
本稿では,ReLUネットワークの既存理論と興味深い経験的挙動のギャップを埋めるために,単一ニューロンReLUネットワークをトレーニングする際のパラメータ空間の勾配流のダイナミクスについて検討する。
具体的には、reluネットワークにおけるサポートベクターの観点で暗黙のバイアスを発見し、reluネットワークがうまく一般化する理由と方法において重要な役割を果たす。
さらに,初期化のノルムの大きさに関して勾配流を解析し,勾配ダイナミクスにおけるノルムの影響を示す。
最後に,ある条件下では,学習重みのノルムが勾配流に対して厳密に増加することが証明される。
関連論文リスト
- Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Dynamics Theory of Implicit Regularization in Deep Low-Rank Matrix
Factorization [21.64166573203593]
暗黙の正則化は、ニューラルネットワークを解釈する重要な方法である。
最近の理論は、深い行列分解(DMF)モデルで暗黙の正則化を説明するようになった。
論文 参考訳(メタデータ) (2022-12-29T02:11:19Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Gradient descent provably escapes saddle points in the training of shallow ReLU networks [6.458742319938318]
我々は、関連する力学系の結果の変種、中心安定な多様体定理を証明し、そこでは正規性要求のいくつかを緩和する。
浅部ReLUおよび漏洩ReLUネットワークに対する正方積分損失関数の臨界点の詳細な検討に基づいて、勾配降下がほとんどのサドル点を下降させることを示す。
論文 参考訳(メタデータ) (2022-08-03T14:08:52Z) - Gradient flow dynamics of shallow ReLU networks for square loss and
orthogonal inputs [19.401271427657395]
勾配降下法によるニューラルネットワークの訓練は、ディープラーニング革命の基盤となっている。
本稿では,1つのニューラルネットワークの小さな初期化における平均二乗誤差に対する勾配流のダイナミクスについて述べる。
論文 参考訳(メタデータ) (2022-06-02T09:01:25Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Shallow Univariate ReLu Networks as Splines: Initialization, Loss
Surface, Hessian, & Gradient Flow Dynamics [1.5393457051344297]
本稿では,ReLU NN を連続的な線形スプラインとして再パラメータ化することを提案する。
我々は、その臨界点と固定点、ヘッセンスペクトル、およびヘッセンスペクトルを含む損失面の構造を驚くほど単純かつ透明に表現する。
Splineベースの可視化を使用した学習ダイナミクスのビデオはhttp://shorturl.at/tFWZ2.comで公開されている。
論文 参考訳(メタデータ) (2020-08-04T19:19:49Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。