論文の概要: Bottleneck Structure in Learned Features: Low-Dimension vs Regularity
Tradeoff
- arxiv url: http://arxiv.org/abs/2305.19008v2
- Date: Thu, 12 Oct 2023 19:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:34:11.630673
- Title: Bottleneck Structure in Learned Features: Low-Dimension vs Regularity
Tradeoff
- Title(参考訳): 学習特徴のボトルネック構造:低次元対正規性トレードオフ
- Authors: Arthur Jacot
- Abstract要約: 低次元表現の学習と特徴写像の複雑性/不規則性の最小化のバランスを定式化する。
大深度の場合、ほとんどすべての隠れ表現はおよそ$R(0)(f)$次元であり、ほとんど全ての重み行列は$W_ell$が$R(0)(f)$特異値である。
興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。
- 参考スコア(独自算出の注目度): 12.351756386062291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work has shown that DNNs with large depth $L$ and
$L_{2}$-regularization are biased towards learning low-dimensional
representations of the inputs, which can be interpreted as minimizing a notion
of rank $R^{(0)}(f)$ of the learned function $f$, conjectured to be the
Bottleneck rank. We compute finite depth corrections to this result, revealing
a measure $R^{(1)}$ of regularity which bounds the pseudo-determinant of the
Jacobian $\left|Jf(x)\right|_{+}$ and is subadditive under composition and
addition. This formalizes a balance between learning low-dimensional
representations and minimizing complexity/irregularity in the feature maps,
allowing the network to learn the `right' inner dimension. Finally, we prove
the conjectured bottleneck structure in the learned features as $L\to\infty$:
for large depths, almost all hidden representations are approximately
$R^{(0)}(f)$-dimensional, and almost all weight matrices $W_{\ell}$ have
$R^{(0)}(f)$ singular values close to 1 while the others are
$O(L^{-\frac{1}{2}})$. Interestingly, the use of large learning rates is
required to guarantee an order $O(L)$ NTK which in turns guarantees infinite
depth convergence of the representations of almost all layers.
- Abstract(参考訳): 以前の研究では、大深度の$l$ と $l_{2}$-正規化を持つdnnは入力の低次元表現の学習に偏りがあり、これはボトルネックランクであると推測された学習関数 $f$ のランク $r^{(0)}(f)$ の概念の最小化と解釈できる。
この結果に対する有限深度補正を計算し、ヤコビアン $\left|Jf(x)\right|_{+}$ の擬行列式を有界とする正則性の測度 $R^{(1)}$ を明らかにし、合成と加法の下で加法的である。
これは低次元表現の学習と特徴写像における複雑性/不規則性の最小化のバランスを形式化し、ネットワークが'右'内部次元を学習できるようにする。
最後に、学習した特徴のボトルネック構造を$L\to\infty$: 大深度の場合、ほとんどすべての隠れ表現はおよそ$R^{(0)}(f)$-次元であり、ほとんどすべての重み行列は$W_{\ell}$ have $R^{(0)}(f)$特異値が 1 に近く、その他のものは$O(L^{-\frac{1}{2}})$である。
興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。
関連論文リスト
- How DNNs break the Curse of Dimensionality: Compositionality and Symmetry Learning [9.302851743819339]
ディープニューラルネットワーク(DNN)は,有界な$F_1$-normで任意の関数の合成を効率的に学習できることを示す。
スケーリング法則を経験的に計算し、$g$か$h$のどちらを学ぶのが難しいかによって相転移を観察する。
論文 参考訳(メタデータ) (2024-07-08T06:59:29Z) - Nearly Optimal Regret for Decentralized Online Convex Optimization [53.433398074919]
分散オンライン凸最適化(D-OCO)は,局所計算と通信のみを用いて,グローバルな損失関数の列を最小化することを目的としている。
我々は凸関数と強い凸関数の残差をそれぞれ低減できる新しいD-OCOアルゴリズムを開発した。
我々のアルゴリズムは、$T$、$n$、$rho$の点でほぼ最適です。
論文 参考訳(メタデータ) (2024-02-14T13:44:16Z) - Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文 参考訳(メタデータ) (2023-09-19T14:20:55Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Improved Generalization Bound and Learning of Sparsity Patterns for
Data-Driven Low-Rank Approximation [15.191184049312467]
より優れた$tildemathrmO(nsk)$ bound for rank-k$ approximationを示す。
また、非ゼロの学習位置が脂肪破砕次元を$mathrmO(nslog n)$でのみ増加させることも証明した。
論文 参考訳(メタデータ) (2022-09-17T08:26:27Z) - Small Covers for Near-Zero Sets of Polynomials and Learning Latent
Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。
構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文 参考訳(メタデータ) (2020-12-14T18:14:08Z) - A deep network construction that adapts to intrinsic dimensionality
beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。
例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。
論文 参考訳(メタデータ) (2020-08-06T09:50:29Z) - Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。
1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文 参考訳(メタデータ) (2020-02-21T17:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。