論文の概要: How Wide Convolutional Neural Networks Learn Hierarchical Tasks
- arxiv url: http://arxiv.org/abs/2208.01003v1
- Date: Mon, 1 Aug 2022 17:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:04:28.099083
- Title: How Wide Convolutional Neural Networks Learn Hierarchical Tasks
- Title(参考訳): ニューラルネットワークが階層的タスクをいかに学習するか
- Authors: Francesco Cagnetta, Alessandro Favero and Matthieu Wyart
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の階層構造について検討する。
深部CNNは対象関数の空間スケールに適応していることを示す。
階層構造にもかかわらず、深いCNNによって生成される関数は、高次元で効率よく学習できるには豊かすぎることが判明した。
- 参考スコア(独自算出の注目度): 69.55323565255631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their success, understanding how convolutional neural networks (CNNs)
can efficiently learn high-dimensional functions remains a fundamental
challenge. A popular belief is that these models harness the compositional and
hierarchical structure of natural data such as images. Yet, we lack a
quantitative understanding of how such structure affects performances, e.g. the
rate of decay of the generalisation error with the number of training samples.
In this paper we study deep CNNs in the kernel regime: i) we show that the
spectrum of the corresponding kernel and its asymptotics inherit the
hierarchical structure of the network; ii) we use generalisation bounds to
prove that deep CNNs adapt to the spatial scale of the target function; iii) we
illustrate this result by computing the rate of decay of the error in a
teacher-student setting, where a deep CNN is trained on the output of another
deep CNN with randomly-initialised parameters. We find that if the teacher
function depends on certain low-dimensional subsets of the input variables,
then the rate is controlled by the effective dimensionality of these subsets.
Conversely, if the teacher function depends on the full set of input variables,
then the error rate is inversely proportional to the input dimension.
Interestingly, this implies that despite their hierarchical structure, the
functions generated by deep CNNs are too rich to be efficiently learnable in
high dimension.
- Abstract(参考訳): 彼らの成功にもかかわらず、畳み込みニューラルネットワーク(CNN)が高次元関数を効率的に学習する方法を理解することは、根本的な課題である。
一般的な考えでは、これらのモデルは画像などの自然データの合成と階層構造を利用する。
しかし、そのような構造がパフォーマンスに与える影響を定量的に理解していない。例えば、トレーニングサンプルの数による一般化誤差の減衰率である。
本稿ではカーネルシステムにおける深部CNNについて述べる。
一 対応するカーネルとその漸近性のスペクトルがネットワークの階層構造を継承していることを示す。
二 一般化境界を用いて、深部CNNが目標関数の空間スケールに適応していることを証明すること。
三 教師学生の設定における誤差の減衰率を計算し、この結果を説明する。そこで、深度CNNがランダムに初期化パラメータを持つ別の深度CNNの出力に基づいて訓練される。
教師関数が入力変数のある種の低次元部分集合に依存する場合、その割合はこれらの部分集合の有効次元性によって制御される。
逆に、教師関数が入力変数の完全な集合に依存する場合、誤差率は入力次元に逆比例する。
興味深いことに、その階層構造にもかかわらず、深層cnnによって生成される関数は豊かすぎて、高次元で効率的に学習できない。
関連論文リスト
- Do deep neural networks have an inbuilt Occam's razor? [1.1470070927586016]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。
この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文 参考訳(メタデータ) (2023-04-13T16:58:21Z) - Provable Data Subset Selection For Efficient Neural Network Training [73.34254513162898]
本稿では,任意の放射基底関数ネットワーク上での入力データの損失を近似する,emphRBFNNのコアセットを構成するアルゴリズムについて紹介する。
次に、一般的なネットワークアーキテクチャやデータセット上で、関数近似とデータセットサブセットの選択に関する経験的評価を行う。
論文 参考訳(メタデータ) (2023-03-09T10:08:34Z) - A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel
Training Applied to Image Recognition Problems [0.0]
モデル並列トレーニング戦略を自然にサポートする新しいCNN-DNNアーキテクチャを提案する。
提案手法は,グローバルモデルと比較して,必要なトレーニング時間を著しく短縮することができる。
その結果,提案手法は,基礎となる分類問題の精度向上にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-13T18:06:59Z) - Universal Approximation Property of Fully Convolutional Neural Networks
with Zero Padding [10.295288663157393]
CNNはテンソル-テンソルマッピングとして機能し、入力データの空間構造を保存する。
入力値と出力値の両方が同じ空間形状を示す場合、CNNは任意の連続関数を近似することができることを示す。
また、深い狭いCNNがテンソル-テンソル関数としてUAPを持っていることも確認した。
論文 参考訳(メタデータ) (2022-11-18T02:04:16Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。