Fugu-MT 論文翻訳(概要): Memory capacity of two layer neural networks with smooth activations

論文の概要: Memory capacity of two layer neural networks with smooth activations

arxiv url: http://arxiv.org/abs/2308.02001v3
Date: Wed, 1 May 2024 20:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-03 22:30:00.639883
Title: Memory capacity of two layer neural networks with smooth activations
Title（参考訳）: スムーズな活性化を伴う2層ニューラルネットワークのメモリ容量
Authors: Liam Madden, Christos Thrampoulidis,
Abstract要約: 隠れニューロンと入力次元が$d$の2層ニューラルネットワークのメモリ容量を決定する。我々は、ネットワークのヤコビアン(英語版)の正確な一般的なランクを導出する。われわれのアプローチは、メモリ容量に関する以前の研究と異なり、より深いモデルへの拡張を約束している。
参考スコア（独自算出の注目度）: 27.33243506775655
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Determining the memory capacity of two layer neural networks with $m$ hidden neurons and input dimension $d$ (i.e., $md+2m$ total trainable parameters), which refers to the largest size of general data the network can memorize, is a fundamental machine learning question. For activations that are real analytic at a point and, if restricting to a polynomial there, have sufficiently high degree, we establish a lower bound of $\lfloor md/2\rfloor$ and optimality up to a factor of approximately $2$. All practical activations, such as sigmoids, Heaviside, and the rectified linear unit (ReLU), are real analytic at a point. Furthermore, the degree condition is mild, requiring, for example, that $\binom{k+d-1}{d-1}\ge n$ if the activation is $x^k$. Analogous prior results were limited to Heaviside and ReLU activations -- our result covers almost everything else. In order to analyze general activations, we derive the precise generic rank of the network's Jacobian, which can be written in terms of Hadamard powers and the Khatri-Rao product. Our analysis extends classical linear algebraic facts about the rank of Hadamard powers. Overall, our approach differs from prior works on memory capacity and holds promise for extending to deeper models and other architectures.
Abstract（参考訳）: 2層ニューラルネットワークのメモリ容量を$m$の隠れニューロンと入力次元$d$(例えば、$md+2m$トータルトレーニング可能なパラメータ)で決定することは、ネットワークが記憶できる一般的なデータの最大サイズを指す、基本的な機械学習問題である。ある点において実解析的であり、そこで多項式に制限されたとき、十分高い次数を持つような活性化に対して、我々は、$\lfloor md/2\rfloor$の低い境界と、約2$の係数までの最適性を確立する。 Sigmoids、Heaviside、rerectified linear unit (ReLU) など、すべての実用的な活性化は、ある点で実解析的である。さらに次数条件は軽度であり、例えば、活性化が$x^k$であれば$\binom{k+d-1}{d-1}\ge n$である。アナログ以前の結果はHeavisideとReLUのアクティベーションに限られていました。一般活性化を解析するために、ネットワークのヤコビアンの正確な一般ランクを導出する。我々の分析は、アダマール級数に関する古典的線型代数的事実を拡張している。全体として、我々のアプローチは、メモリ容量に関する以前の研究と異なり、より深いモデルや他のアーキテクチャへの拡張を約束しています。

関連論文リスト

Local Convergence of Approximate Newton Method for Two Layer Nonlinear Regression [21.849997443967705]
2層回帰問題は先行研究でよく研究されている。第1の層はReLUユニットで活性化され、第2の層はソフトマックスユニットで活性化される。ヘッセン行列の損失関数は正定値であり、ある仮定の下でリプシッツが連続であることを証明する。
論文参考訳（メタデータ） (2023-11-26T19:19:02Z)
Efficient SGD Neural Network Training via Sublinear Activated Neuron Identification [22.361338848134025]
本稿では,ReLUの活性化をシフトする2層ニューラルネットワークについて,幾何学的探索によるサブ線形時間における活性化ニューロンの同定を可能にする。また、我々のアルゴリズムは、係数ノルム上界$M$とエラー項$epsilon$の2次ネットワークサイズで$O(M2/epsilon2)$時間に収束できることを示す。
論文参考訳（メタデータ） (2023-07-13T05:33:44Z)
Polynomial Width is Sufficient for Set Representation with High-dimensional Features [69.65698500919869]
DeepSetsは集合表現のための最も広く使われているニューラルネットワークアーキテクチャである。 a) 線形 + パワーアクティベーション (LP) と (b) 線形 + 指数的アクティベーション (LE) の2つの集合要素埋め込み層を示す。
論文参考訳（メタデータ） (2023-07-08T16:00:59Z)
A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。 SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文参考訳（メタデータ） (2023-03-06T14:31:09Z)
Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文参考訳（メタデータ） (2022-12-05T14:47:52Z)
Robust Training and Verification of Implicit Neural Networks: A Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。 MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文参考訳（メタデータ） (2022-08-08T03:13:24Z)
Going Beyond Linear RL: Sample Efficient Neural Function Approximation [76.57464214864756]
2層ニューラルネットワークによる関数近似について検討する。この結果は線形(あるいは可溶性次元)法で達成できることを大幅に改善する。
論文参考訳（メタデータ） (2021-07-14T03:03:56Z)
Towards Lower Bounds on the Depth of ReLU Neural Networks [7.355977594790584]
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増加するかどうかを考察する。 We settled an old conjecture about piecewise linear function by Wang and Sun (2005) in affirmative。対数深度を持つ関数を表すのに必要なニューラルネットワークのサイズについて上限を述べる。
論文参考訳（メタデータ） (2021-05-31T09:49:14Z)
Deep neural network approximation of analytic functions [91.3755431537592]
ニューラルネットワークの空間にエントロピーバウンド片方向の線形活性化関数を持つ我々は、ペナル化深部ニューラルネットワーク推定器の予測誤差に対するオラクルの不等式を導出する。
論文参考訳（メタデータ） (2021-04-05T18:02:04Z)
Memorizing Gaussians with no over-parameterizaion via gradient decent on neural networks [27.374589803147025]
奥行き2つのネットワーク上の適切な勾配の1ステップは、$q$隠されたニューロンを持ち、$Omegaleft(fracdqlog4(d)right)$独立でランダムなラベル付きガウスを$mathbbRd$で記憶することができることを証明している。その結果は、絶対値を含む大きな活性化関数のクラスに対して有効である。
論文参考訳（メタデータ） (2020-03-28T21:45:42Z)
On Approximation Capabilities of ReLU Activation and Softmax Output Layer in Neural Networks [6.852561400929072]
我々は、ReLUアクティベーション関数を用いた十分に大きなニューラルネットワークが任意の精度でL1$の任意の関数を近似できることを証明した。また、非線形ソフトマックス出力層を用いた十分大きなニューラルネットワークは、任意の指標関数を$L1$で近似することも示している。
論文参考訳（メタデータ） (2020-02-10T19:48:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。