論文の概要: How Wide Convolutional Neural Networks Learn Hierarchical Tasks
- arxiv url: http://arxiv.org/abs/2208.01003v1
- Date: Mon, 1 Aug 2022 17:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:04:28.099083
- Title: How Wide Convolutional Neural Networks Learn Hierarchical Tasks
- Title(参考訳): ニューラルネットワークが階層的タスクをいかに学習するか
- Authors: Francesco Cagnetta, Alessandro Favero and Matthieu Wyart
- Abstract要約: 畳み込みニューラルネットワーク(CNN)の階層構造について検討する。
深部CNNは対象関数の空間スケールに適応していることを示す。
階層構造にもかかわらず、深いCNNによって生成される関数は、高次元で効率よく学習できるには豊かすぎることが判明した。
- 参考スコア(独自算出の注目度): 69.55323565255631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their success, understanding how convolutional neural networks (CNNs)
can efficiently learn high-dimensional functions remains a fundamental
challenge. A popular belief is that these models harness the compositional and
hierarchical structure of natural data such as images. Yet, we lack a
quantitative understanding of how such structure affects performances, e.g. the
rate of decay of the generalisation error with the number of training samples.
In this paper we study deep CNNs in the kernel regime: i) we show that the
spectrum of the corresponding kernel and its asymptotics inherit the
hierarchical structure of the network; ii) we use generalisation bounds to
prove that deep CNNs adapt to the spatial scale of the target function; iii) we
illustrate this result by computing the rate of decay of the error in a
teacher-student setting, where a deep CNN is trained on the output of another
deep CNN with randomly-initialised parameters. We find that if the teacher
function depends on certain low-dimensional subsets of the input variables,
then the rate is controlled by the effective dimensionality of these subsets.
Conversely, if the teacher function depends on the full set of input variables,
then the error rate is inversely proportional to the input dimension.
Interestingly, this implies that despite their hierarchical structure, the
functions generated by deep CNNs are too rich to be efficiently learnable in
high dimension.
- Abstract(参考訳): 彼らの成功にもかかわらず、畳み込みニューラルネットワーク(CNN)が高次元関数を効率的に学習する方法を理解することは、根本的な課題である。
一般的な考えでは、これらのモデルは画像などの自然データの合成と階層構造を利用する。
しかし、そのような構造がパフォーマンスに与える影響を定量的に理解していない。例えば、トレーニングサンプルの数による一般化誤差の減衰率である。
本稿ではカーネルシステムにおける深部CNNについて述べる。
一 対応するカーネルとその漸近性のスペクトルがネットワークの階層構造を継承していることを示す。
二 一般化境界を用いて、深部CNNが目標関数の空間スケールに適応していることを証明すること。
三 教師学生の設定における誤差の減衰率を計算し、この結果を説明する。そこで、深度CNNがランダムに初期化パラメータを持つ別の深度CNNの出力に基づいて訓練される。
教師関数が入力変数のある種の低次元部分集合に依存する場合、その割合はこれらの部分集合の有効次元性によって制御される。
逆に、教師関数が入力変数の完全な集合に依存する場合、誤差率は入力次元に逆比例する。
興味深いことに、その階層構造にもかかわらず、深層cnnによって生成される関数は豊かすぎて、高次元で効率的に学習できない。
関連論文リスト
- Visualising Feature Learning in Deep Neural Networks by Diagonalizing the Forward Feature Map [4.776836972093627]
本稿では,ディープニューラルネットワーク(DNN)を分解して特徴学習を分析する手法を提案する。
DNNはクラス数に等しい多くの固有関数に支配される最小特徴(MF)体制に収束する。
我々は、神経崩壊現象を、回帰のようなより広範なタスクに拡張できるカーネルイメージに再キャストする。
論文 参考訳(メタデータ) (2024-10-05T18:53:48Z) - Average gradient outer product as a mechanism for deep neural collapse [26.939895223897572]
Deep Neural Collapse (DNC)は、Deep Neural Networks (DNN)の最終層におけるデータ表現の驚くほど硬い構造を指す。
本研究では,平均勾配外積(AGOP)を通した特徴学習によりDNCが生成するデータ依存環境を提案する。
特徴学習体制下で訓練されたニューラルネットワークに対して,適切な特異ベクトルと重みの値が,クラス内変動の崩壊の大部分の原因となることを示す。
論文 参考訳(メタデータ) (2024-02-21T11:40:27Z) - Do deep neural networks have an inbuilt Occam's razor? [1.1470070927586016]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。
この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文 参考訳(メタデータ) (2023-04-13T16:58:21Z) - Provable Data Subset Selection For Efficient Neural Network Training [73.34254513162898]
本稿では,任意の放射基底関数ネットワーク上での入力データの損失を近似する,emphRBFNNのコアセットを構成するアルゴリズムについて紹介する。
次に、一般的なネットワークアーキテクチャやデータセット上で、関数近似とデータセットサブセットの選択に関する経験的評価を行う。
論文 参考訳(メタデータ) (2023-03-09T10:08:34Z) - Universal Approximation Property of Fully Convolutional Neural Networks
with Zero Padding [10.295288663157393]
CNNはテンソル-テンソルマッピングとして機能し、入力データの空間構造を保存する。
入力値と出力値の両方が同じ空間形状を示す場合、CNNは任意の連続関数を近似することができることを示す。
また、深い狭いCNNがテンソル-テンソル関数としてUAPを持っていることも確認した。
論文 参考訳(メタデータ) (2022-11-18T02:04:16Z) - Towards a General Purpose CNN for Long Range Dependencies in
$\mathrm{N}$D [49.57261544331683]
構造変化のない任意の解像度,次元,長さのタスクに対して,連続的な畳み込みカーネルを備えた単一CNNアーキテクチャを提案する。
1$mathrmD$)とビジュアルデータ(2$mathrmD$)の幅広いタスクに同じCCNNを適用することで、我々のアプローチの汎用性を示す。
私たちのCCNNは競争力があり、検討されたすべてのタスクで現在の最先端を上回ります。
論文 参考訳(メタデータ) (2022-06-07T15:48:02Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。