論文の概要: On the Sample Complexity of Two-Layer Networks: Lipschitz vs.
Element-Wise Lipschitz Activation
- arxiv url: http://arxiv.org/abs/2211.09634v1
- Date: Thu, 17 Nov 2022 16:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 16:55:26.602040
- Title: On the Sample Complexity of Two-Layer Networks: Lipschitz vs.
Element-Wise Lipschitz Activation
- Title(参考訳): 2層ネットワークのサンプル複雑性について:Lipschitz vs. Element-Wise Lipschitz Activation
- Authors: Amit Daniely and Elad Granot
- Abstract要約: 本研究では,異なるアクティベーション関数を用いた有界二層ニューラルネットワークのサンプル複雑性について検討する。
我々は、$sigma$ が要素ワイドであれば、$mathcalH$ のサンプル複雑性は幅独立であり、この複雑さは厳密であることを示す。
- 参考スコア(独自算出の注目度): 29.658978381991005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the sample complexity of bounded two-layer neural networks
using different activation functions.
In particular, we consider the class
\mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ
W\textbf{x} + \textbf{b} \rangle :
\textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{T\times d}, \textbf{v} \in
where the spectral norm of $W$ and $\textbf{v}$ is bounded by $O(1)$, the
Frobenius norm of $W$ is bounded from its initialization by $R > 0$, and
$\sigma$ is a Lipschitz activation function.
We prove that if $\sigma$ is element-wise, then the sample complexity of
$\mathcal{H}$ is width independent and that this complexity is tight.
Moreover, we show that the element-wise property of $\sigma$ is essential for
width-independent bound, in the sense that there exist non-element-wise
activation functions whose sample complexity is provably width-dependent.
For the upper bound, we use the recent approach for norm-based bounds named
Approximate Description Length (ADL) by arXiv:1910.05697.
We further develop new techniques and tools for this approach, that will
hopefully inspire future works.
- Abstract(参考訳): 異なる活性化関数を用いた有界二層ニューラルネットワークのサンプル複雑性について検討する。
特に、クラス \[ \mathcal{H} = \left\{\textbf{x}\mapsto \langle \textbf{v}, \sigma \circ W\textbf{x} + \textbf{b} \rangle : \textbf{b}\in\mathbb{R}^d, W \in \mathbb{R}^{T\times d}, \textbf{v} \in \mathbb{R}^{T}\right\} \] を考える。
我々は、$\sigma$ が要素的であれば、$\mathcal{H}$ のサンプル複雑性は幅独立であり、この複雑さは密であることを示す。
上界に対しては、arXiv:1910.05697 により Approximate Description Length (ADL) と呼ばれるノルムベース境界に対する最近のアプローチを用いる。
- The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model [3.309767076331365]
線形回帰問題も研究し、$sigma(mathbfx) = mathbfx$ となる。
論文 参考訳(メタデータ) (2024-09-05T16:59:56Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - Optimal Estimator for Linear Regression with Shuffled Labels [17.99906229036223]
mathbb Rntimes m の $mathbf Y、mathbb Rntimes p の mathbf Pi、mathbb Rptimes m$ の mathbf B、mathbb Rntimes m$ の $mathbf Win mathbb Rntimes m$ である。
論文 参考訳(メタデータ) (2023-10-02T16:44:47Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - On the Complexity of Minimizing Convex Finite Sums Without Using the
Indices of the Individual Functions [62.01594253618911]
同様のアプローチを踏襲したSVRGの新規な適応法を提案し、これはオラクルと互換性があり、$tildeO(n2+nsqrtL/mu)log (1/epsilon)$と$O(nsqrtL/epsilon)$, for $mu>0$と$mu=0$の複雑さ境界を実現する。
論文 参考訳(メタデータ) (2020-02-09T03:39:46Z)