論文の概要: Memory capacity of two layer neural networks with smooth activations
- arxiv url: http://arxiv.org/abs/2308.02001v1
- Date: Thu, 3 Aug 2023 19:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:41:34.747663
- Title: Memory capacity of two layer neural networks with smooth activations
- Title(参考訳): 滑らかなアクティベーションを有する2層ニューラルネットワークのメモリ容量
- Authors: Liam Madden and Christos Thrampoulidis
- Abstract要約: 我々は,m隠れニューロンと入力次元dを有する2層ニューラルネットワークのメモリ容量について検討した。
非ポリノミカル実解析活性化関数に対しては、md/2 の低い境界と、約 2 の係数までの最適性を確立する。
- 参考スコア(独自算出の注目度): 34.100845063076534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the memory capacity of two-layer neural networks with m hidden
neurons and input dimension d (i.e., md+m total trainable parameters), which
refers to the largest size of general data the network can memorize, is a
fundamental machine-learning question. For non-polynomial real analytic
activation functions, such as sigmoids and smoothed rectified linear units
(smoothed ReLUs), we establish a lower bound of md/2 and optimality up to a
factor of approximately 2. Analogous prior results were limited to Heaviside
and ReLU activations, with results for smooth activations suffering from
logarithmic factors and requiring random data. To analyze the memory capacity,
we examine the rank of the network's Jacobian by computing the rank of matrices
involving both Hadamard powers and the Khati-Rao product. Our computation
extends classical linear algebraic facts about the rank of Hadamard powers.
Overall, our approach differs from previous works on memory capacity and holds
promise for extending to deeper models and other architectures.
- Abstract(参考訳): m隠れニューロンと入力次元d(md+mトータルトレーサブルパラメータ)を用いた2層ニューラルネットワークのメモリ容量の決定は、ネットワークが記憶できる一般的なデータの最大サイズを指すものであり、基本的な機械学習の問題である。
Sigmoidsやsmoothed rectified linear units (smoothed ReLUs)のような非ポリノミカルな実解析的活性化関数に対して、md/2の低い境界と約2の係数の最適性を確立する。
類似した先行結果はheavisideおよびreluアクティベーションに限定され、結果として、対数因子とランダムなデータを必要とするスムーズなアクティベーションが得られた。
メモリ容量を解析するために,アダマール力とハティラオ積の両方を含む行列の階数を計算することにより,ネットワークのヤコビアン階数を調べる。
我々の計算は、アダマール級数に関する古典的線型代数的事実を拡張している。
全体として、我々のアプローチはメモリ容量に関する以前の作業と異なり、より深いモデルや他のアーキテクチャへの拡張の可能性を秘めています。
関連論文リスト
- Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Towards Lower Bounds on the Depth of ReLU Neural Networks [7.355977594790584]
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増加するかどうかを考察する。
We settled an old conjecture about piecewise linear function by Wang and Sun (2005) in affirmative。
対数深度を持つ関数を表すのに必要なニューラルネットワークのサイズについて上限を述べる。
論文 参考訳(メタデータ) (2021-05-31T09:49:14Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Memorizing Gaussians with no over-parameterizaion via gradient decent on
neural networks [27.374589803147025]
奥行き2つのネットワーク上の適切な勾配の1ステップは、$q$隠されたニューロンを持ち、$Omegaleft(fracdqlog4(d)right)$独立でランダムなラベル付きガウスを$mathbbRd$で記憶することができることを証明している。
その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。
論文 参考訳(メタデータ) (2020-03-28T21:45:42Z) - On Approximation Capabilities of ReLU Activation and Softmax Output
Layer in Neural Networks [6.852561400929072]
我々は、ReLUアクティベーション関数を用いた十分に大きなニューラルネットワークが任意の精度でL1$の任意の関数を近似できることを証明した。
また、非線形ソフトマックス出力層を用いた十分大きなニューラルネットワークは、任意の指標関数を$L1$で近似することも示している。
論文 参考訳(メタデータ) (2020-02-10T19:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。