論文の概要: Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and
Sparsity
- arxiv url: http://arxiv.org/abs/2205.15809v1
- Date: Tue, 31 May 2022 14:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:02:38.602549
- Title: Feature Learning in $L_{2}$-regularized DNNs: Attraction/Repulsion and
Sparsity
- Title(参考訳): l_{2}$-regularized dnnにおける特徴学習:アトラクション/反発とスパーシティ
- Authors: Arthur Jacot, Eugene Golikov, Cl\'ement Hongler, Franck Gabriel
- Abstract要約: パラメータの損失は、トレーニングセットの層単位でのアクティベーション$Z_ell$の損失に再計算可能であることを示す。
この改革は、機能学習の背景にあるダイナミクスを明らかにします。
- 参考スコア(独自算出の注目度): 9.077741848403791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the loss surface of DNNs with $L_{2}$ regularization. We show that
the loss in terms of the parameters can be reformulated into a loss in terms of
the layerwise activations $Z_{\ell}$ of the training set. This reformulation
reveals the dynamics behind feature learning: each hidden representations
$Z_{\ell}$ are optimal w.r.t. to an attraction/repulsion problem and
interpolate between the input and output representations, keeping as little
information from the input as necessary to construct the activation of the next
layer. For positively homogeneous non-linearities, the loss can be further
reformulated in terms of the covariances of the hidden representations, which
takes the form of a partially convex optimization over a convex cone.
This second reformulation allows us to prove a sparsity result for
homogeneous DNNs: any local minimum of the $L_{2}$-regularized loss can be
achieved with at most $N(N+1)$ neurons in each hidden layer (where $N$ is the
size of the training set). We show that this bound is tight by giving an
example of a local minimum which requires $N^{2}/4$ hidden neurons. But we also
observe numerically that in more traditional settings much less than $N^{2}$
neurons are required to reach the minima.
- Abstract(参考訳): 我々はDNNの損失面を$L_{2}$正規化で調べる。
パラメータの観点からの損失は、トレーニングセットの階層的活性化$z_{\ell}$という観点で、損失に再構成できることを示す。
それぞれの隠れ表現 $z_{\ell}$ は、アトラクション/反発問題に対して最適な w.r.t であり、入力と出力の表現の間を補間し、次のレイヤのアクティベーションを構築するために、入力から必要最小限の情報を保持します。
正に同質な非線型性に対して、損失は、凸錐上の部分凸最適化の形をとる隠蔽表現の共分散の観点からさらに再構成することができる。
L_{2}$-regularized lossの任意の局所最小値は、各隠れた層(N$がトレーニングセットのサイズである場合)に少なくとも$N(N+1)$のニューロンで達成できる。
この境界は、N^{2}/4$の隠されたニューロンを必要とする局所的な最小値の例を示すことによって、きついことを示す。
しかし、より伝統的な環境ではミニマムに到達するのにn^{2}$のニューロンが必要となることを数値的に観察する。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Spatially heterogeneous learning by a deep student machine [0.0]
多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)は、ほとんどブラックボックスのままである。
我々は,教師学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなるDNNと深度$L$の教師学習について検討した。
N gg c gg 1$ and $M gg 1$ with fixed $alpha=M/c$ using the replica method developed in (H. Yoshino,)
論文 参考訳(メタデータ) (2023-02-15T01:09:03Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。