論文の概要: Exact capacity of the \emph{wide} hidden layer treelike neural networks
with generic activations
- arxiv url: http://arxiv.org/abs/2402.05719v1
- Date: Thu, 8 Feb 2024 14:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:41:11.889305
- Title: Exact capacity of the \emph{wide} hidden layer treelike neural networks
with generic activations
- Title(参考訳): 汎用的なアクティベーションを持つ階層型隠れ層型ニューラルネットワークの正確な能力
- Authors: Mihailo Stojnic
- Abstract要約: Random Duality Theory (RDT) と Emphpartially lifted (pl RDT) は、非常に正確なネットワーク容量分析に使用できる強力なツールである。
本稿では, 広範囲に隠された層ネットワークを考察し, citeStojnictcmspnncapdiffactrdt23における数値的困難の特定の側面が奇跡的に消失していることを明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in studying \emph{treelike committee machines} (TCM) neural
networks (NN) in
\cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23,Stojnictcmspnncapdiffactrdt23}
showed that the Random Duality Theory (RDT) and its a \emph{partially
lifted}(pl RDT) variant are powerful tools that can be used for very precise
networks capacity analysis. Here, we consider \emph{wide} hidden layer networks
and uncover that certain aspects of numerical difficulties faced in
\cite{Stojnictcmspnncapdiffactrdt23} miraculously disappear. In particular, we
employ recently developed \emph{fully lifted} (fl) RDT to characterize the
\emph{wide} ($d\rightarrow \infty$) TCM nets capacity. We obtain explicit,
closed form, capacity characterizations for a very generic class of the hidden
layer activations. While the utilized approach significantly lowers the amount
of the needed numerical evaluations, the ultimate fl RDT usefulness and success
still require a solid portion of the residual numerical work. To get the
concrete capacity values, we take four very famous activations examples:
\emph{\textbf{ReLU}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, and
\textbf{\emph{tanh}}. After successfully conducting all the residual numerical
work for all of them, we uncover that the whole lifting mechanism exhibits a
remarkably rapid convergence with the relative improvements no better than
$\sim 0.1\%$ happening already on the 3-rd level of lifting. As a convenient
bonus, we also uncover that the capacity characterizations obtained on the
first and second level of lifting precisely match those obtained through the
statistical physics replica theory methods in \cite{ZavPeh21} for the generic
and in \cite{BalMalZech19} for the ReLU activations.
- Abstract(参考訳): 近年の「emph{treelike Committee Machine} (TCM) Neural Network (NN) in \cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23,Stojnictcmspnncapdiffactt23}」研究は、Random Duality Theory (RDT) と \emph{partially lifted}(pl RDT) の変種が、非常に正確なネットワークキャパシティ分析に使用できる強力なツールであることを示した。
ここでは,emph{wide}隠れ層ネットワークを考察し,<cite{stojnictcmspnncapdiffactrdt23>で直面する数値的困難が奇跡的に消滅することを明らかにする。
特に、最近開発された \emph{fully lifted} (fl) rdt を用いて \emph{wide} (d\rightarrow \infty$) tcm nets の容量を特徴付ける。
隠蔽層活性化の非常に一般的なクラスに対して、明示的で閉じた形式、キャパシティ特性を得る。
有効手法は必要な数値評価の量を著しく削減するが、究極的な fl RDT の有用性と成功は依然として残余の数値処理の確実な部分を必要とする。
具体的なキャパシティ値を得るために、非常に有名なアクティベーションの例が4つある: \emph{\textbf{relu}}, \textbf{\emph{quadratic}}, \textbf{\emph{erf}}, \textbf{\emph{tanh}} である。
これらすべてに対して残余の数値計算を成功させた結果、リフティング機構全体が、リフティングの第3レベルにおいて既に発生している$\sim 0.1\%$ 以下の相対的な改善で驚くほど高速に収束していることが判明した。
簡便なボーナスとして,第1段階と第2段階の昇降で得られたキャパシティ特性が,統計物理学のレプリカ理論法で得られたものと,一般に対しては \cite{zavpeh21} で,reluアクティベーションでは \cite{balmalzech19} で正確に一致していることを明らかにする。
関連論文リスト
- Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Fixed width treelike neural networks capacity analysis -- generic
activations [0.0]
本稿では,Emphtreelike Committee Machine (TCM) ニューラルネットワークの能力について考察する。
citeStojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23のフレームワークは、そのようなシナリオの処理を可能にするのに十分強力であることを示す。
論文 参考訳(メタデータ) (2024-02-08T14:19:29Z) - Fl RDT based ultimate lowering of the negative spherical perceptron
capacity [0.0]
古典的な球面パーセプトロンを考察し,その能力について検討する。
まず, 球面パーセプトロンをfl RDTのフレームに装着し, キャパシティを特徴付けるために全fl RDT機構を用いることを示す。
論文 参考訳(メタデータ) (2023-12-27T11:23:40Z) - \emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike
\emph{sign} perceptrons neural networks [0.0]
多層型エンフサインパーセプトロンニューラルネット(SPNN)の機能について考察する。
citeStojnictcmspnncaprdt23で得られた最近の厳密なキャパシティ特性は、ネットワーク構成にニューロンを追加することが本当に有益であることを示した。
論文 参考訳(メタデータ) (2023-12-13T16:19:58Z) - Capacity of the treelike sign perceptrons neural networks with one
hidden layer -- RDT based upper bounds [0.0]
エンファンサイン知覚神経ネットワーク(SPNN)の能力について検討する。
我々は,TCM (1-hidden Layer Emphtreelike Committee Machine) アーキテクチャに注目した。
論文 参考訳(メタデータ) (2023-12-13T16:06:18Z) - Binary perceptrons capacity via fully lifted random duality theory [0.0]
古典的二項パーセプトロンの統計容量を一般しきい値$kappa$で調べる。
我々は citeStojnicflrdt23 で確立された即時昇降ランダム双対性理論 (fl RDT) に頼り、パーセプトロンの能力を研究するための一般的な枠組みを作成する。
論文 参考訳(メタデータ) (2023-11-29T22:22:32Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Neural networks behave as hash encoders: An empirical study [79.38436088982283]
ReLUライクなアクティベーションを持つニューラルネットワークの入力空間は、複数の線形領域に分割される。
このパーティションは、さまざまなディープラーニングモデルで以下のエンコーディング特性を示すことを実証します。
K$-Means、$K$-NN、およびロジスティック回帰などの単純なアルゴリズムは、トレーニングデータとテストデータの両方でかなり優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-14T07:50:40Z) - Over-parameterized Adversarial Training: An Analysis Overcoming the
Curse of Dimensionality [74.0084803220897]
逆行訓練は、逆行性摂動に対する神経網の堅牢性を与える一般的な方法である。
自然仮定とReLUアクティベーションの下で, 指数的ではなく, 低ロバストトレーニング損失に対する収束性を示す。
論文 参考訳(メタデータ) (2020-02-16T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。