論文の概要: Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2210.07082v1
- Date: Thu, 13 Oct 2022 15:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:49:22.401294
- Title: Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data
- Title(参考訳): 高次元データを用いた漏洩ReLUネットワークにおけるインプシットバイアス
- Authors: Spencer Frei, Gal Vardi, Peter L. Bartlett, Nathan Srebro, Wei Hu
- Abstract要約: 本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
- 参考スコア(独自算出の注目度): 63.34506218832164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The implicit biases of gradient-based optimization algorithms are conjectured
to be a major factor in the success of modern deep learning. In this work, we
investigate the implicit bias of gradient flow and gradient descent in
two-layer fully-connected neural networks with leaky ReLU activations when the
training data are nearly-orthogonal, a common property of high-dimensional
data. For gradient flow, we leverage recent work on the implicit bias for
homogeneous neural networks to show that asymptotically, gradient flow produces
a neural network with rank at most two. Moreover, this network is an
$\ell_2$-max-margin solution (in parameter space), and has a linear decision
boundary that corresponds to an approximate-max-margin linear predictor. For
gradient descent, provided the random initialization variance is small enough,
we show that a single step of gradient descent suffices to drastically reduce
the rank of the network, and that the rank remains small throughout training.
We provide experiments which suggest that a small initialization scale is
important for finding low-rank neural networks with gradient descent.
- Abstract(参考訳): 勾配に基づく最適化アルゴリズムの暗黙バイアスは、現代のディープラーニングの成功の大きな要因であると考えられている。
本研究では,高次元データの共通特性であるほぼ直交である場合,ReLU活性化が漏れる2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流については,均質なニューラルネットワークに対する暗黙のバイアスを応用し,漸近的に勾配流が最大2ランクのニューラルネットワークを生成することを示した。
さらに、このネットワークは$\ell_2$-max-margin解(パラメータ空間)であり、近似max-margin線形予測器に対応する線形決定境界を持つ。
勾配降下の場合、ランダムな初期化のばらつきが十分小さい場合、勾配降下の1ステップはネットワークのランクを劇的に下げるのに十分であり、トレーニング中もランクが小さいことを示す。
勾配降下を伴う低ランクニューラルネットワークの探索には,小さな初期化スケールが重要であることを示唆する実験を行った。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Continuous vs. Discrete Optimization of Deep Neural Networks [15.508460240818575]
均一な活性化を伴う深層ニューラルネットワーク上では、勾配流軌跡が良好な曲率を享受できることが示される。
この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、勾配勾配が効率的に大域最小限に収束することを保証できる。
我々は、勾配流の理論が深層学習の背後にある謎の解き放つ中心となると仮定する。
論文 参考訳(メタデータ) (2021-07-14T10:59:57Z) - Vanishing Curvature and the Power of Adaptive Methods in Randomly
Initialized Deep Networks [30.467121747150816]
本稿では,ニューラルネットワークの深部で一般的に発生する,いわゆる消滅勾配現象を再考する。
ネットワーク幅が O(depth) 未満のスケールでは, 消失勾配を回避できないことを示す。
論文 参考訳(メタデータ) (2021-06-07T16:29:59Z) - Convergence rates for gradient descent in the training of
overparameterized artificial neural networks with biases [3.198144010381572]
近年、人工ニューラルネットワークは、古典的なソリューションが近づいている多数の問題に対処するための強力なツールに発展しています。
ランダムな勾配降下アルゴリズムが限界に達する理由はまだ不明である。
論文 参考訳(メタデータ) (2021-02-23T18:17:47Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z) - Training Two-Layer ReLU Networks with Gradient Descent is Inconsistent [2.7793394375935088]
We proof that two-layer (Leaky)ReLU network by e., from the widely use method proposed by He et al. is not consistent。
論文 参考訳(メタデータ) (2020-02-12T09:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。