論文の概要: Exact capacity of the \emph{wide} hidden layer treelike neural networks
with generic activations
- arxiv url: http://arxiv.org/abs/2402.05719v1
- Date: Thu, 8 Feb 2024 14:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:41:11.889305
- Title: Exact capacity of the \emph{wide} hidden layer treelike neural networks
with generic activations
- Title(参考訳): 汎用的なアクティベーションを持つ階層型隠れ層型ニューラルネットワークの正確な能力
- Authors: Mihailo Stojnic
- Abstract要約: Random Duality Theory (RDT) と Emphpartially lifted (pl RDT) は、非常に正確なネットワーク容量分析に使用できる強力なツールである。
本稿では, 広範囲に隠された層ネットワークを考察し, citeStojnictcmspnncapdiffactrdt23における数値的困難の特定の側面が奇跡的に消失していることを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in studying \emph{treelike committee machines} (TCM) neural
networks (NN) in
showed that the Random Duality Theory (RDT) and its a \emph{partially
lifted}(pl RDT) variant are powerful tools that can be used for very precise
networks capacity analysis. Here, we consider \emph{wide} hidden layer networks
and uncover that certain aspects of numerical difficulties faced in
\cite{Stojnictcmspnncapdiffactrdt23} miraculously disappear. In particular, we
employ recently developed \emph{fully lifted} (fl) RDT to characterize the
\emph{wide} ($d\rightarrow \infty$) TCM nets capacity. We obtain explicit,
closed form, capacity characterizations for a very generic class of the hidden
layer activations. While the utilized approach significantly lowers the amount
of the needed numerical evaluations, the ultimate fl RDT usefulness and success
still require a solid portion of the residual numerical work. To get the
concrete capacity values, we take four very famous activations examples:
\emph{\textbf{ReLU}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, and
\textbf{\emph{tanh}}. After successfully conducting all the residual numerical
work for all of them, we uncover that the whole lifting mechanism exhibits a
remarkably rapid convergence with the relative improvements no better than
$\sim 0.1\%$ happening already on the 3-rd level of lifting. As a convenient
bonus, we also uncover that the capacity characterizations obtained on the
first and second level of lifting precisely match those obtained through the
statistical physics replica theory methods in \cite{ZavPeh21} for the generic
and in \cite{BalMalZech19} for the ReLU activations.
- Abstract(参考訳): 近年の「emph{treelike Committee Machine} (TCM) Neural Network (NN) in \cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23,Stojnictcmspnncapdiffactt23}」研究は、Random Duality Theory (RDT) と \emph{partially lifted}(pl RDT) の変種が、非常に正確なネットワークキャパシティ分析に使用できる強力なツールであることを示した。
特に、最近開発された \emph{fully lifted} (fl) rdt を用いて \emph{wide} (d\rightarrow \infty$) tcm nets の容量を特徴付ける。
有効手法は必要な数値評価の量を著しく削減するが、究極的な fl RDT の有用性と成功は依然として残余の数値処理の確実な部分を必要とする。
具体的なキャパシティ値を得るために、非常に有名なアクティベーションの例が4つある: \emph{\textbf{relu}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, \textbf{\emph{tanh}} である。
これらすべてに対して残余の数値計算を成功させた結果、リフティング機構全体が、リフティングの第3レベルにおいて既に発生している$\sim 0.1\%$ 以下の相対的な改善で驚くほど高速に収束していることが判明した。
簡便なボーナスとして,第1段階と第2段階の昇降で得られたキャパシティ特性が,統計物理学のレプリカ理論法で得られたものと,一般に対しては \cite{zavpeh21} で,reluアクティベーションでは \cite{balmalzech19} で正確に一致していることを明らかにする。
- Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Fixed width treelike neural networks capacity analysis -- generic
activations [0.0]
本稿では,Emphtreelike Committee Machine (TCM) ニューラルネットワークの能力について考察する。
論文 参考訳(メタデータ) (2024-02-08T14:19:29Z) - Fl RDT based ultimate lowering of the negative spherical perceptron
capacity [0.0]
まず, 球面パーセプトロンをfl RDTのフレームに装着し, キャパシティを特徴付けるために全fl RDT機構を用いることを示す。
論文 参考訳(メタデータ) (2023-12-27T11:23:40Z) - \emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike
\emph{sign} perceptrons neural networks [0.0]
論文 参考訳(メタデータ) (2023-12-13T16:19:58Z) - Capacity of the treelike sign perceptrons neural networks with one
hidden layer -- RDT based upper bounds [0.0]
我々は,TCM (1-hidden Layer Emphtreelike Committee Machine) アーキテクチャに注目した。
論文 参考訳(メタデータ) (2023-12-13T16:06:18Z) - Binary perceptrons capacity via fully lifted random duality theory [0.0]
我々は citeStojnicflrdt23 で確立された即時昇降ランダム双対性理論 (fl RDT) に頼り、パーセプトロンの能力を研究するための一般的な枠組みを作成する。
論文 参考訳(メタデータ) (2023-11-29T22:22:32Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)