論文の概要: Why Are Convolutional Nets More Sample-Efficient than Fully-Connected
Nets?
- arxiv url: http://arxiv.org/abs/2010.08515v2
- Date: Tue, 4 May 2021 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:20:11.123325
- Title: Why Are Convolutional Nets More Sample-Efficient than Fully-Connected
Nets?
- Title(参考訳): なぜ畳み込みネットは完全接続ネットよりもサンプル効率が高いのか?
- Authors: Zhiyuan Li, Yi Zhang, Sanjeev Arora
- Abstract要約: 標準学習アルゴリズムにおいて、証明可能なサンプル複雑性のギャップを示すことができる自然なタスクを示す。
単一の対象関数を示し、可能なすべての分布について、$O(1)$対$Omega(d2/varepsilon)$ギャップを学習する。
同様の結果が$ell$回帰およびAdamやAdaGradといった適応型トレーニングアルゴリズムに対して達成される。
- 参考スコア(独自算出の注目度): 33.51250867983687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks often dominate fully-connected counterparts in
generalization performance, especially on image classification tasks. This is
often explained in terms of 'better inductive bias'. However, this has not been
made mathematically rigorous, and the hurdle is that the fully connected net
can always simulate the convolutional net (for a fixed task). Thus the training
algorithm plays a role. The current work describes a natural task on which a
provable sample complexity gap can be shown, for standard training algorithms.
We construct a single natural distribution on $\mathbb{R}^d\times\{\pm 1\}$ on
which any orthogonal-invariant algorithm (i.e. fully-connected networks trained
with most gradient-based methods from gaussian initialization) requires
$\Omega(d^2)$ samples to generalize while $O(1)$ samples suffice for
convolutional architectures. Furthermore, we demonstrate a single target
function, learning which on all possible distributions leads to an $O(1)$ vs
$\Omega(d^2/\varepsilon)$ gap. The proof relies on the fact that SGD on
fully-connected network is orthogonal equivariant. Similar results are achieved
for $\ell_2$ regression and adaptive training algorithms, e.g. Adam and
AdaGrad, which are only permutation equivariant.
- Abstract(参考訳): 畳み込みニューラルネットワークは、特に画像分類タスクにおいて、一般化性能において、完全接続のニューラルネットワークを支配していることが多い。
これはしばしば 'better inductive bias' という用語で説明される。
しかし、これは数学的に厳密なものではなく、完全に連結されたネットは常に畳み込みネットをシミュレートできる(固定されたタスクのために)。
したがって、トレーニングアルゴリズムが役割を果たす。
現在の研究は、標準的なトレーニングアルゴリズムにおいて、証明可能なサンプル複雑性ギャップを示すことができる自然なタスクを記述している。
我々は、任意の直交不変アルゴリズム(すなわちガウス初期化からほとんどの勾配に基づく方法で訓練された完全連結ネットワーク)が一般化するために$\omega(d^2)$サンプルを必要とする$\mathbb{r}^d\times\{\pm 1\}$ 上の単一の自然分布を構築し、$o(1)$ は畳み込みアーキテクチャで十分である。
さらに、可能なすべての分布について、O(1)$対$\Omega(d^2/\varepsilon)$ギャップを学習する単一ターゲット関数を実証する。
この証明は、完全連結ネットワーク上のSGDが直交同変であるという事実に依存している。
同様の結果が$\ell_2$回帰および適応トレーニングアルゴリズム(例えばAdamとAdaGrad)で得られ、これは置換同変である。
関連論文リスト
- Replicable Uniformity Testing [1.5883812630616523]
この研究は、アルゴリズムの複製性という枠組みの下で一様性テストを再考する。
我々は, $tildeO(sqrtn varepsilon-2 rho-1)$サンプルのみを用いて複製可能なテスタを得る。
論文 参考訳(メタデータ) (2024-10-12T02:55:17Z) - Learning Hierarchical Polynomials with Three-Layer Neural Networks [56.71223169861528]
3層ニューラルネットワークを用いた標準ガウス分布における階層関数の学習問題について検討する。
次数$k$s$p$の大規模なサブクラスの場合、正方形損失における階層的勾配によるトレーニングを受けた3層ニューラルネットワークは、テストエラーを消すためにターゲット$h$を学習する。
この研究は、3層ニューラルネットワークが複雑な特徴を学習し、その結果、幅広い階層関数のクラスを学ぶ能力を示す。
論文 参考訳(メタデータ) (2023-11-23T02:19:32Z) - Efficiently Learning One-Hidden-Layer ReLU Networks via Schur
Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。
本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文 参考訳(メタデータ) (2023-07-24T14:37:22Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - A Feedforward Unitary Equivariant Neural Network [3.6220250022337335]
我々は新しいタイプのフィードフォワードニューラルネットワークを考案した。
これはユニタリ群 $U(n)$ に対して同変である。
入力と出力は任意の次元が$n$の$mathbbCn$のベクトルである。
論文 参考訳(メタデータ) (2022-08-25T15:05:02Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Distributed Sparse Feature Selection in Communication-Restricted
Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。
データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T05:02:24Z) - Convergence and Sample Complexity of SGD in GANs [15.25030172685628]
SGDによるGAN(Generative Adversarial Networks)のトレーニングにおける収束保証を提供する。
我々は,非線形アクティベーション機能を持つ1層ジェネレータネットワークによってモデル化されたターゲット分布の学習を検討する。
この結果は、ReLUを含む幅広い非線形アクティベーション関数 $phi$ に適用され、切り離された統計との接続によって実現される。
論文 参考訳(メタデータ) (2020-12-01T18:50:38Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。