論文の概要: Fixed width treelike neural networks capacity analysis -- generic
activations
- arxiv url: http://arxiv.org/abs/2402.05696v1
- Date: Thu, 8 Feb 2024 14:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:56:03.269575
- Title: Fixed width treelike neural networks capacity analysis -- generic
activations
- Title(参考訳): 固定幅木型ニューラルネットワークのキャパシティ解析 --ジェネリックアクティベーション
- Authors: Mihailo Stojnic
- Abstract要約: 本稿では,Emphtreelike Committee Machine (TCM) ニューラルネットワークの能力について考察する。
citeStojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23のフレームワークは、そのようなシナリオの処理を可能にするのに十分強力であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the capacity of \emph{treelike committee machines} (TCM) neural
networks. Relying on Random Duality Theory (RDT), \cite{Stojnictcmspnncaprdt23}
recently introduced a generic framework for their capacity analysis. An upgrade
based on the so-called \emph{partially lifted} RDT (pl RDT) was then presented
in \cite{Stojnictcmspnncapliftedrdt23}. Both lines of work focused on the
networks with the most typical, \emph{sign}, activations. Here, on the other
hand, we focus on networks with other, more general, types of activations and
show that the frameworks of
\cite{Stojnictcmspnncaprdt23,Stojnictcmspnncapliftedrdt23} are sufficiently
powerful to enable handling of such scenarios as well. In addition to the
standard \emph{linear} activations, we uncover that particularly convenient
results can be obtained for two very commonly used activations, namely, the
\emph{quadratic} and \emph{rectified linear unit (ReLU)} ones. In more concrete
terms, for each of these activations, we obtain both the RDT and pl RDT based
memory capacities upper bound characterization for \emph{any} given (even)
number of the hidden layer neurons, $d$. In the process, we also uncover the
following two, rather remarkable, facts: 1) contrary to the common wisdom, both
sets of results show that the bounding capacity decreases for large $d$ (the
width of the hidden layer) while converging to a constant value; and 2) the
maximum bounding capacity is achieved for the networks with precisely
\textbf{\emph{two}} hidden layer neurons! Moreover, the large $d$ converging
values are observed to be in excellent agrement with the statistical physics
replica theory based predictions.
- Abstract(参考訳): 我々は, \emph{treelike committee machines} (tcm) ニューラルネットワークの能力を検討する。
Random Duality Theory (RDT) に基づき、最近、そのキャパシティ分析のための一般的なフレームワークを導入した。
いわゆる \emph{partially lifted} RDT (pl RDT) に基づいたアップグレードが \cite{Stojnictcmspnncapliftedrdt23} で発表された。
どちらの作業ラインも、最も典型的な \emph{sign} アクティベーションを持つネットワークに焦点を当てている。
ここでは,より一般的なアクティベーションのタイプであるネットワークに注目し, \cite{stojnictcmspnncaprdt23,stojnictcmspnncapliftedrdt23} のフレームワークが,そのようなシナリオを処理できるように十分に強力であることを示す。
標準の \emph{linear} 活性化に加えて、非常によく使われる 2 つの活性化、すなわち \emph{quadratic} と \emph{rectified linear unit (ReLU) に対して特に便利な結果が得られることを明らかにする。
より具体的には、これらの活性化のそれぞれに対して、隠れた層ニューロンの(偶数)個数$d$に対して、RDTとpl RDTに基づくメモリ容量の上限特性を得る。
その過程で、私たちはさらに次の2つの驚くべき事実を明らかにします。
1) 共通知識とは対照的に,両結果は,境界容量が一定値に収束しながら,大きな$d$(隠れ層幅)に対して減少することを示している。
2)最大バウンダリング能力は、正確には \textbf{\emph{two}}隠れ層ニューロンを持つネットワークに対して達成される。
さらに、大きな$d$収束値は、統計物理学のレプリカ理論に基づく予測とよく一致することが観察される。
関連論文リスト
- Exact capacity of the \emph{wide} hidden layer treelike neural networks
with generic activations [0.0]
Random Duality Theory (RDT) と Emphpartially lifted (pl RDT) は、非常に正確なネットワーク容量分析に使用できる強力なツールである。
本稿では, 広範囲に隠された層ネットワークを考察し, citeStojnictcmspnncapdiffactrdt23における数値的困難の特定の側面が奇跡的に消失していることを明らかにする。
論文 参考訳(メタデータ) (2024-02-08T14:50:07Z) - \emph{Lifted} RDT based capacity analysis of the 1-hidden layer treelike
\emph{sign} perceptrons neural networks [0.0]
多層型エンフサインパーセプトロンニューラルネット(SPNN)の機能について考察する。
citeStojnictcmspnncaprdt23で得られた最近の厳密なキャパシティ特性は、ネットワーク構成にニューロンを追加することが本当に有益であることを示した。
論文 参考訳(メタデータ) (2023-12-13T16:19:58Z) - Capacity of the treelike sign perceptrons neural networks with one
hidden layer -- RDT based upper bounds [0.0]
エンファンサイン知覚神経ネットワーク(SPNN)の能力について検討する。
我々は,TCM (1-hidden Layer Emphtreelike Committee Machine) アーキテクチャに注目した。
論文 参考訳(メタデータ) (2023-12-13T16:06:18Z) - Binary perceptrons capacity via fully lifted random duality theory [0.0]
古典的二項パーセプトロンの統計容量を一般しきい値$kappa$で調べる。
我々は citeStojnicflrdt23 で確立された即時昇降ランダム双対性理論 (fl RDT) に頼り、パーセプトロンの能力を研究するための一般的な枠組みを作成する。
論文 参考訳(メタデータ) (2023-11-29T22:22:32Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Memory capacity of two layer neural networks with smooth activations [27.33243506775655]
隠れニューロンと入力次元が$d$の2層ニューラルネットワークのメモリ容量を決定する。
我々は、ネットワークのヤコビアン(英語版)の正確な一般的なランクを導出する。
われわれのアプローチは、メモリ容量に関する以前の研究と異なり、より深いモデルへの拡張を約束している。
論文 参考訳(メタデータ) (2023-08-03T19:31:15Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。
CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2021-10-25T07:12:53Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。