論文の概要: Memory capacity of two layer neural networks with smooth activations
- arxiv url: http://arxiv.org/abs/2308.02001v2
- Date: Mon, 4 Sep 2023 17:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 03:45:43.596266
- Title: Memory capacity of two layer neural networks with smooth activations
- Title(参考訳): 滑らかなアクティベーションを有する2層ニューラルネットワークのメモリ容量
- Authors: Liam Madden and Christos Thrampoulidis
- Abstract要約: 入力次元が$d$と$m$の2層ニューラルネットワークのメモリ容量を決定する。
ネットワークのヤコビアン(Jacobian)の正確なランクを導いており、これはアダマール力とカトリ・ラオ積(英語版)(Khatri-Rao product)の項で記述できる。
- 参考スコア(独自算出の注目度): 32.2896512612788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the memory capacity of two layer neural networks with $m$ hidden
neurons and input dimension $d$ (i.e., $md+m$ total trainable parameters),
which refers to the largest size of general data the network can memorize, is a
fundamental machine learning question. For polynomial activations of
sufficiently high degree, such as $x^k$ with $\binom{d+k}{d-1}\ge n$, and real
analytic activations, such as sigmoids and smoothed rectified linear units
(smoothed ReLUs), we establish a lower bound of $\lfloor md/2\rfloor$ and
optimality up to a factor of approximately 2. Analogous prior results were
limited to Heaviside and ReLU activations. In order to analyze general real
analytic activations, we derive the precise generic rank of the network's
Jacobian, which can be written in terms of Hadamard powers and the Khatri-Rao
product. Our analysis extends classical linear algebraic facts about the rank
of Hadamard powers. Overall, our approach differs from prior works on memory
capacity and holds promise for extending to deeper models and other
architectures.
- Abstract(参考訳): 2層ニューラルネットワークのメモリ容量を$m$の隠れニューロンと入力次元$d$(例えば、$md+m$トータルトレーニング可能なパラメータ)で決定することは、ネットワークが記憶できる一般的なデータの最大サイズを指す、基本的な機械学習問題である。
x^k$ が $\binom{d+k}{d-1}\ge n$ となるような多項式の活性化や、sgmoids や smoothed rectified linear units (smoothed relus) のような実解析的な活性化に対しては、$\lfloor md/2\rfloor$ の下限と、約 2 倍までの最適性を確立する。
類似の結果はheavisideおよびreluアクティベーションに限定された。
一般の実解析的活性化を分析するために、ネットワークのヤコビアン(英語版)の正確な総称階数(英語版)を導出する。
解析は古典線形代数的事実をハダマールの力のランクで拡張する。
全体として、我々のアプローチはメモリ容量に関する以前の作業と異なり、より深いモデルや他のアーキテクチャへの拡張の可能性を秘めています。
関連論文リスト
- Local Convergence of Approximate Newton Method for Two Layer Nonlinear
Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。
第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。
ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文 参考訳(メタデータ) (2023-11-26T19:19:02Z) - Efficient SGD Neural Network Training via Sublinear Activated Neuron
Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。
また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文 参考訳(メタデータ) (2023-07-13T05:33:44Z) - Polynomial Width is Sufficient for Set Representation with
High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。
a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文 参考訳(メタデータ) (2023-07-08T16:00:59Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。
この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文 参考訳(メタデータ) (2021-07-14T03:03:56Z) - Towards Lower Bounds on the Depth of ReLU Neural Networks [7.355977594790584]
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増加するかどうかを考察する。
We settled an old conjecture about piecewise linear function by Wang and Sun (2005) in affirmative。
対数深度を持つ関数を表すのに必要なニューラルネットワークのサイズについて上限を述べる。
論文 参考訳(メタデータ) (2021-05-31T09:49:14Z) - Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間に エントロピーバウンド 片方向の線形活性化関数を持つ
我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文 参考訳(メタデータ) (2021-04-05T18:02:04Z) - Memorizing Gaussians with no over-parameterizaion via gradient decent on
neural networks [27.374589803147025]
奥行き2つのネットワーク上の適切な勾配の1ステップは、$q$隠されたニューロンを持ち、$Omegaleft(fracdqlog4(d)right)$独立でランダムなラベル付きガウスを$mathbbRd$で記憶することができることを証明している。
その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。
論文 参考訳(メタデータ) (2020-03-28T21:45:42Z) - On Approximation Capabilities of ReLU Activation and Softmax Output
Layer in Neural Networks [6.852561400929072]
我々は、ReLUアクティベーション関数を用いた十分に大きなニューラルネットワークが任意の精度でL1$の任意の関数を近似できることを証明した。
また、非線形ソフトマックス出力層を用いた十分大きなニューラルネットワークは、任意の指標関数を$L1$で近似することも示している。
論文 参考訳(メタデータ) (2020-02-10T19:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。