Fugu-MT 論文翻訳(概要): Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff

論文の概要: Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff

arxiv url: http://arxiv.org/abs/2305.19008v2
Date: Thu, 12 Oct 2023 19:18:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 17:34:11.630673
Title: Bottleneck Structure in Learned Features: Low-Dimension vs Regularity Tradeoff
Title（参考訳）: 学習特徴のボトルネック構造:低次元対正規性トレードオフ
Authors: Arthur Jacot
Abstract要約: 低次元表現の学習と特徴写像の複雑性/不規則性の最小化のバランスを定式化する。大深度の場合、ほとんどすべての隠れ表現はおよそ$R(0)(f)$次元であり、ほとんど全ての重み行列は$W_ell$が$R(0)(f)$特異値である。興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。
参考スコア（独自算出の注目度）: 12.351756386062291
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Previous work has shown that DNNs with large depth $L$ and $L_{2}$-regularization are biased towards learning low-dimensional representations of the inputs, which can be interpreted as minimizing a notion of rank $R^{(0)}(f)$ of the learned function $f$, conjectured to be the Bottleneck rank. We compute finite depth corrections to this result, revealing a measure $R^{(1)}$ of regularity which bounds the pseudo-determinant of the Jacobian $\left|Jf(x)\right|_{+}$ and is subadditive under composition and addition. This formalizes a balance between learning low-dimensional representations and minimizing complexity/irregularity in the feature maps, allowing the network to learn the `right' inner dimension. Finally, we prove the conjectured bottleneck structure in the learned features as $L\to\infty$: for large depths, almost all hidden representations are approximately $R^{(0)}(f)$-dimensional, and almost all weight matrices $W_{\ell}$ have $R^{(0)}(f)$ singular values close to 1 while the others are $O(L^{-\frac{1}{2}})$. Interestingly, the use of large learning rates is required to guarantee an order $O(L)$ NTK which in turns guarantees infinite depth convergence of the representations of almost all layers.
Abstract（参考訳）: 以前の研究では、大深度の$l$ と $l_{2}$-正規化を持つdnnは入力の低次元表現の学習に偏りがあり、これはボトルネックランクであると推測された学習関数 $f$ のランク $r^{(0)}(f)$ の概念の最小化と解釈できる。この結果に対する有限深度補正を計算し、ヤコビアン $\left|Jf(x)\right|_{+}$ の擬行列式を有界とする正則性の測度 $R^{(1)}$ を明らかにし、合成と加法の下で加法的である。これは低次元表現の学習と特徴写像における複雑性/不規則性の最小化のバランスを形式化し、ネットワークが'右'内部次元を学習できるようにする。最後に、学習した特徴のボトルネック構造を$L\to\infty$: 大深度の場合、ほとんどすべての隠れ表現はおよそ$R^{(0)}(f)$-次元であり、ほとんどすべての重み行列は$W_{\ell}$ have $R^{(0)}(f)$特異値が 1 に近く、その他のものは$O(L^{-\frac{1}{2}})$である。興味深いことに、大きな学習率の使用は、ほぼすべての層の表現の無限深度収束を保証する注文$O(L)$ NTKを保証するために要求される。

関連論文リスト

Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity [8.28720658988688]
最適関数近似器であり,統計的に良好であるReLU多層認識(MLP)のクラスを同定する。我々は、小さなスパイクに頼って犠牲になる最適なReLU近似器を構築するための標準的なアプローチを避けることで、これを実現する。
論文参考訳（メタデータ） (2024-09-18T22:05:07Z)
Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文参考訳（メタデータ） (2024-09-10T14:31:21Z)
How DNNs break the Curse of Dimensionality: Compositionality and Symmetry Learning [9.302851743819339]
ディープニューラルネットワーク(DNN)は,有界な$F_1$-normで任意の関数の合成を効率的に学習できることを示す。スケーリング法則を経験的に計算し、$g$か$h$のどちらを学ぶのが難しいかによって相転移を観察する。
論文参考訳（メタデータ） (2024-07-08T06:59:29Z)
Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。 SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文参考訳（メタデータ） (2024-06-03T17:56:58Z)
Nearly Optimal Regret for Decentralized Online Convex Optimization [53.433398074919]
分散オンライン凸最適化(D-OCO)は,局所計算と通信のみを用いて,グローバルな損失関数の列を最小化することを目的としている。我々は凸関数と強い凸関数の残差をそれぞれ低減できる新しいD-OCOアルゴリズムを開発した。我々のアルゴリズムは、$T$、$n$、$rho$の点でほぼ最適です。
論文参考訳（メタデータ） (2024-02-14T13:44:16Z)
Geometric structure of Deep Learning networks and construction of global ${\mathcal L}^2$ minimizers [1.189367612437469]
我々は低パラメータ深層学習(DL)ネットワークにおける$mathcalL2$コスト関数の局所的および大域的最小化を明示的に決定する。
論文参考訳（メタデータ） (2023-09-19T14:20:55Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Polynomial Width is Sufficient for Set Representation with High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。 a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文参考訳（メタデータ） (2023-07-08T16:00:59Z)
Neural Networks Efficiently Learn Low-Dimensional Representations with SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文参考訳（メタデータ） (2022-09-29T15:29:10Z)
Improved Generalization Bound and Learning of Sparsity Patterns for Data-Driven Low-Rank Approximation [15.191184049312467]
より優れた$tildemathrmO(nsk)$ bound for rank-k$ approximationを示す。また、非ゼロの学習位置が脂肪破砕次元を$mathrmO(nslog n)$でのみ増加させることも証明した。
論文参考訳（メタデータ） (2022-09-17T08:26:27Z)
Small Covers for Near-Zero Sets of Polynomials and Learning Latent Variable Models [56.98280399449707]
我々は、s$ of cardinality $m = (k/epsilon)o_d(k1/d)$ に対して $epsilon$-cover が存在することを示す。構造的結果に基づいて,いくつかの基本的高次元確率モデル隠れ変数の学習アルゴリズムを改良した。
論文参考訳（メタデータ） (2020-12-14T18:14:08Z)
A deep network construction that adapts to intrinsic dimensionality beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。
論文参考訳（メタデータ） (2020-08-06T09:50:29Z)
Few-Shot Learning via Learning the Representation, Provably [115.7367053639605]
本稿では,表現学習による少数ショット学習について検討する。 1つのタスクは、ターゲットタスクのサンプルの複雑さを減らすために、$T$ソースタスクと$n_1$データを使用して表現を学習する。
論文参考訳（メタデータ） (2020-02-21T17:30:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。