論文の概要: Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios
- arxiv url: http://arxiv.org/abs/2106.08619v1
- Date: Wed, 16 Jun 2021 08:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:33:55.262420
- Title: Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios
- Title(参考訳): 畳み込み型教師学生シナリオにおける局所性は次元性の呪いを破る
- Authors: Alessandro Favero, Francesco Cagnetta, Matthieu Wyart
- Abstract要約: 学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
- 参考スコア(独自算出の注目度): 69.2027612631023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks perform a local and translationally-invariant
treatment of the data: quantifying which of these two aspects is central to
their success remains a challenge. We study this problem within a
teacher-student framework for kernel regression, using `convolutional' kernels
inspired by the neural tangent kernel of simple convolutional architectures of
given filter size. Using heuristic methods from physics, we find in the
ridgeless case that locality is key in determining the learning curve exponent
$\beta$ (that relates the test error $\epsilon_t\sim P^{-\beta}$ to the size of
the training set $P$), whereas translational invariance is not. In particular,
if the filter size of the teacher $t$ is smaller than that of the student $s$,
$\beta$ is a function of $s$ only and does not depend on the input dimension.
We confirm our predictions on $\beta$ empirically. Theoretically, in some cases
(including when teacher and student are equal) it can be shown that this
prediction is an upper bound on performance. We conclude by proving, using a
natural universality assumption, that performing kernel regression with a ridge
that decreases with the size of the training set leads to similar learning
curve exponents to those we obtain in the ridgeless case.
- Abstract(参考訳): 畳み込みニューラルネットワークは、データの局所的および翻訳的不変な処理を実行する。
本研究では,与えられたフィルタサイズの単純な畳み込みアーキテクチャのニューラルネットワークカーネルにインスパイアされた'畳み込み'カーネルを用いて,この問題をカーネル回帰のための教師学生フレームワーク内で研究する。
物理学からのヒューリスティックな方法を用いることで、学習曲線指数 $\beta$ (テスト誤差 $\epsilon_t\sim P^{-\beta}$ をトレーニングセット $P$ のサイズに関連付ける)を決定するのに局所性が鍵であることが分かるが、翻訳不変性はそうではない。
特に、教師$t$のフィルタサイズが学生$s$よりも小さい場合、$\beta$は$s$のみの関数であり、入力次元に依存しない。
実証的に$\beta$の予測を確認します。
理論的には、(教師と生徒が等しい場合を含む)ある場合において、この予測はパフォーマンスの上限であることを示すことができる。
最後に,自然普遍性仮定を用いて,学習集合の大きさで減少するリッジでカーネル回帰を行うことで,リッジレスの場合と同様の学習曲線指数が得られることを証明した。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Spatially heterogeneous learning by a deep student machine [0.0]
多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)は、ほとんどブラックボックスのままである。
我々は,教師学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなるDNNと深度$L$の教師学習について検討した。
N gg c gg 1$ and $M gg 1$ with fixed $alpha=M/c$ using the replica method developed in (H. Yoshino,)
論文 参考訳(メタデータ) (2023-02-15T01:09:03Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - Neural Networks can Learn Representations with Gradient Descent [68.95262816363288]
特定の状況下では、勾配降下によって訓練されたニューラルネットワークは、カーネルメソッドのように振る舞う。
実際には、ニューラルネットワークが関連するカーネルを強く上回ることが知られている。
論文 参考訳(メタデータ) (2022-06-30T09:24:02Z) - Failure and success of the spectral bias prediction for Kernel Ridge
Regression: the case of low-dimensional data [0.28647133890966986]
一部のレジームでは、カーネルの固有基底上の真の関数 $f*$ を分解して、この方法がスペクトルバイアスを持つと予測している。
この予測は、画像などのベンチマークデータセットで非常にうまく機能するが、これらのアプローチがデータに対して行う仮定は、実際には満たされない。
論文 参考訳(メタデータ) (2022-02-07T16:48:14Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Fundamental tradeoffs between memorization and robustness in random
features and neural tangent regimes [15.76663241036412]
モデルがトレーニングのごく一部を記憶している場合、そのソボレフ・セミノルムは低い有界であることを示す。
実験によって初めて、(iv)ミンノルム補間器の堅牢性における多重発色現象が明らかになった。
論文 参考訳(メタデータ) (2021-06-04T17:52:50Z) - The Interpolation Phase Transition in Neural Networks: Memorization and
Generalization under Lazy Training [10.72393527290646]
ニューラル・タンジェント(NT)体制における2層ニューラルネットワークの文脈における現象について検討した。
Ndgg n$ とすると、テストエラーは無限幅のカーネルに対するカーネルリッジ回帰の1つによってよく近似される。
後者は誤差リッジ回帰によりよく近似され、活性化関数の高次成分に関連する自己誘導項により正規化パラメータが増加する。
論文 参考訳(メタデータ) (2020-07-25T01:51:13Z) - Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions [11.70706646606773]
本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。
本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。
同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
論文 参考訳(メタデータ) (2020-06-27T22:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。