論文の概要: A Unifying View on Implicit Bias in Training Linear Neural Networks
- arxiv url: http://arxiv.org/abs/2010.02501v3
- Date: Fri, 10 Sep 2021 05:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 06:22:15.621836
- Title: A Unifying View on Implicit Bias in Training Linear Neural Networks
- Title(参考訳): リニアニューラルネットワークのトレーニングにおけるインシシトバイアスの統一的視点
- Authors: Chulhee Yun, Shankar Krishnan, Hossein Mobahi
- Abstract要約: 線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では, ニューラルネットワークのテンソルの定式化について検討し, 完全連結型, 対角型, 畳み込み型ネットワークを特殊な場合として提案する。
- 参考スコア(独自算出の注目度): 31.65006970108761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the implicit bias of gradient flow (i.e., gradient descent with
infinitesimal step size) on linear neural network training. We propose a tensor
formulation of neural networks that includes fully-connected, diagonal, and
convolutional networks as special cases, and investigate the linear version of
the formulation called linear tensor networks. With this formulation, we can
characterize the convergence direction of the network parameters as singular
vectors of a tensor defined by the network. For $L$-layer linear tensor
networks that are orthogonally decomposable, we show that gradient flow on
separable classification finds a stationary point of the $\ell_{2/L}$
max-margin problem in a "transformed" input space defined by the network. For
underdetermined regression, we prove that gradient flow finds a global minimum
which minimizes a norm-like function that interpolates between weighted
$\ell_1$ and $\ell_2$ norms in the transformed input space. Our theorems
subsume existing results in the literature while removing standard convergence
assumptions. We also provide experiments that corroborate our analysis.
- Abstract(参考訳): 線形ニューラルネットワークトレーニングにおける勾配流(無限小ステップサイズの勾配勾配勾配勾配)の暗黙バイアスについて検討する。
本稿では,完全連結,対角,畳み込みネットワークを具体例に含むニューラルネットワークのテンソル定式化を提案し,線形テンソルネットワークと呼ばれる定式化の線形バージョンについて検討する。
この定式化により、ネットワークパラメータの収束方向を、ネットワークによって定義されるテンソルの特異ベクトルとして特徴づけることができる。
直交分解可能なl$層線形テンソルネットワークに対して,分離分類上の勾配流は,ネットワークが定義する「変換」入力空間において,$\ell_{2/l}$ max-margin 問題の定常点を求める。
非決定回帰の場合、勾配流は変換された入力空間で重み付き$\ell_1$ と $\ell_2$ のノルムを補間するノルムのような関数を最小化する大域的最小値を求める。
我々の定理は、標準収束仮定を取り除きながら、文献中の既存の結果を仮定する。
また、分析を裏付ける実験も行います。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Implicit Bias of Gradient Descent for Mean Squared Error Regression with
Two-Layer Wide Neural Networks [1.3706331473063877]
幅$n$浅いReLUネットワークをトレーニングする解は、トレーニングデータに適合する関数の$n-1/2$以内であることを示す。
また, トレーニング軌道はスムーズなスプラインの軌道によって捕捉され, 正規化強度は低下することを示した。
論文 参考訳(メタデータ) (2020-06-12T17:46:40Z) - Neural Networks are Convex Regularizers: Exact Polynomial-time Convex
Optimization Formulations for Two-layer Networks [70.15611146583068]
我々は、線形整列ユニット(ReLU)を用いた2層ニューラルネットワークのトレーニングの正確な表現を開発する。
我々の理論は半無限双対性と最小ノルム正規化を利用する。
論文 参考訳(メタデータ) (2020-02-24T21:32:41Z) - How Implicit Regularization of ReLU Neural Networks Characterizes the
Learned Function -- Part I: the 1-D Case of Two Layers with Random First
Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。
そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文 参考訳(メタデータ) (2019-11-07T13:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。