論文の概要: Theoretical Analysis of Inductive Biases in Deep Convolutional Networks
- arxiv url: http://arxiv.org/abs/2305.08404v2
- Date: Sat, 20 Jan 2024 15:50:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:49:44.698392
- Title: Theoretical Analysis of Inductive Biases in Deep Convolutional Networks
- Title(参考訳): 深層畳み込みネットワークにおけるインダクティブバイアスの理論解析
- Authors: Zihao Wang, Lei Wu
- Abstract要約: 畳み込みニューラルネットワーク(CNN)における誘導バイアスの理論解析
CNN, ローカル接続ネットワーク(LCN) および完全接続ネットワーク(FCN) の性能を, 簡単な回帰処理で比較する。
LCNが$Omega(d)$サンプルを必要とするのに対して、CNNは$widetildemathcalO(log2d)$サンプルしか必要とせず、重量共有の重要な役割を強調している。
- 参考スコア(独自算出の注目度): 16.41952363194339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a theoretical analysis of the inductive biases in
convolutional neural networks (CNNs). We start by examining the universality of
CNNs, i.e., the ability to approximate any continuous functions. We prove that
a depth of $\mathcal{O}(\log d)$ suffices for deep CNNs to achieve this
universality, where $d$ in the input dimension. Additionally, we establish that
learning sparse functions with CNNs requires only
$\widetilde{\mathcal{O}}(\log^2d)$ samples, indicating that deep CNNs can
efficiently capture {\em long-range} sparse correlations. These results are
made possible through a novel combination of the multichanneling and
downsampling when increasing the network depth. We also delve into the distinct
roles of weight sharing and locality in CNNs. To this end, we compare the
performance of CNNs, locally-connected networks (LCNs), and fully-connected
networks (FCNs) on a simple regression task, where LCNs can be viewed as CNNs
without weight sharing. On the one hand, we prove that LCNs require
${\Omega}(d)$ samples while CNNs need only $\widetilde{\mathcal{O}}(\log^2d)$
samples, highlighting the critical role of weight sharing. On the other hand,
we prove that FCNs require $\Omega(d^2)$ samples, whereas LCNs need only
$\widetilde{\mathcal{O}}(d)$ samples, underscoring the importance of locality.
These provable separations quantify the difference between the two biases, and
the major observation behind our proof is that weight sharing and locality
break different symmetries in the learning process.
- Abstract(参考訳): 本稿では,畳み込みニューラルネットワーク(CNN)の誘導バイアスに関する理論的解析を行う。
まず、cnn、すなわち任意の連続関数を近似する能力の普遍性を調べることから始める。
この普遍性を達成するために、深い cnn に対して$\mathcal{o}(\log d)$ の深さが十分であることを証明する。
さらに,CNNによるスパース関数の学習には$\widetilde{\mathcal{O}}(\log^2d)$サンプルしか必要とせず,深部CNNのスパース相関を効率的に捉えることができることを示す。
これらの結果は、ネットワークの深さを増加させる際にマルチチャネルとダウンサンプリングの新たな組み合わせによって実現される。
また,cnnにおける重み共有と局所性の役割についても考察した。
そこで本研究では,CNN,ローカル接続ネットワーク(LCN),完全接続ネットワーク(FCN)の性能を単純な回帰タスクで比較し,LCNを重み付けなしでCNNとみなす。
一方、lcn は ${\omega}(d)$ のサンプルを必要とするが、cnn は$\widetilde{\mathcal{o}}(\log^2d)$ のサンプルしか必要とせず、重量共有の重要な役割を強調している。
一方、FCNは$\Omega(d^2)$サンプルを必要とするのに対し、LCNは$\widetilde{\mathcal{O}}(d)$サンプルしか必要とせず、局所性の重要性を裏付ける。
これらの証明可能な分離は2つのバイアスの違いを定量化し、我々の証明の背後にある大きな観察は、ウェイトシェアリングとローカリティが学習過程において異なる対称性を破ることである。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - On the rates of convergence for learning with convolutional neural networks [9.772773527230134]
畳み込みニューラルネットワーク(CNN)の1側ゼロパディングと複数のチャネルによる近似と学習能力について検討した。
多くの学習問題におけるCNNに基づく推定器の収束率を導出する。
また、得られた分類率は、いくつかの一般的な設定において極小であることも示している。
論文 参考訳(メタデータ) (2024-03-25T06:42:02Z) - Role of Locality and Weight Sharing in Image-Based Tasks: A Sample Complexity Separation between CNNs, LCNs, and FCNs [42.551773746803946]
視覚タスクは局所性と翻訳不変性の特性によって特徴づけられる。
これらのタスクにおける畳み込みニューラルネットワーク(CNN)の優れた性能は、そのアーキテクチャに埋め込まれた局所性や重み付けの帰納的バイアスに起因する。
CNNにおけるこれらのバイアスの統計的利点を、局所連結ニューラルネットワーク(LCN)と完全連結ニューラルネットワーク(FCN)で定量化しようとする試みは、以下のカテゴリに分類される。
論文 参考訳(メタデータ) (2024-03-23T03:57:28Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Distributed Sparse Feature Selection in Communication-Restricted
Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。
データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T05:02:24Z) - BreakingBED -- Breaking Binary and Efficient Deep Neural Networks by
Adversarial Attacks [65.2021953284622]
CNNのホワイトボックス攻撃やブラックボックス攻撃に対する堅牢性について検討する。
結果は、蒸留されたCNN、エージェントベースの最新のprunedモデル、およびバイナライズニューラルネットワークのために示されています。
論文 参考訳(メタデータ) (2021-03-14T20:43:19Z) - Approximating smooth functions by deep neural networks with sigmoid
activation function [0.0]
我々は,シグモイド活性化機能を持つディープニューラルネットワーク(DNN)のパワーについて検討した。
固定深度と幅が$Md$で近似レートが$M-2p$であることを示す。
論文 参考訳(メタデータ) (2020-10-08T07:29:31Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。