Fugu-MT 論文翻訳(概要): Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation

論文の概要: Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation

arxiv url: http://arxiv.org/abs/2501.18530v1
Date: Thu, 30 Jan 2025 17:56:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.278366
Title: Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation
Title（参考訳）: 補間近傍の広帯域浅部ニューラルネットワークにおける最適一般化と学習遷移
Authors: Jean Barbier, Francesco Camilli, Minh-Toan Nguyen, Mauro Pastore, Rudy Skerk,
Abstract要約: 教師が指導する2層ニューラルネットワークを用いた教師型学習モデルについて考察する。ネットワークのベイズ最適一般化誤差を任意の活性化関数に対して計算する。
参考スコア（独自算出の注目度）: 4.976898227858662
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a teacher-student model of supervised learning with a fully-trained 2-layer neural network whose width $k$ and input dimension $d$ are large and proportional. We compute the Bayes-optimal generalisation error of the network for any activation function in the regime where the number of training data $n$ scales quadratically with the input dimension, i.e., around the interpolation threshold where the number of trainable parameters $kd+k$ and of data points $n$ are comparable. Our analysis tackles generic weight distributions. Focusing on binary weights, we uncover a discontinuous phase transition separating a "universal" phase from a "specialisation" phase. In the first, the generalisation error is independent of the weight distribution and decays slowly with the sampling rate $n/d^2$, with the student learning only some non-linear combinations of the teacher weights. In the latter, the error is weight distribution-dependent and decays faster due to the alignment of the student towards the teacher network. We thus unveil the existence of a highly predictive solution near interpolation, which is however potentially hard to find.
Abstract（参考訳）: 教師が指導する2層ニューラルネットワークによる教師あり学習モデルについて検討し,その幅が$k$,入力次元が$d$で比例する。ネットワークのベイズ最適一般化誤差(Bayes-Optimal generalization error)は、トレーニングデータ$n$が入力次元と2次スケールでスケールする場合、すなわち、トレーニング可能なパラメータ$kd+k$とデータポイント$n$が同等となる補間しきい値付近で計算する。我々の分析は総重量分布に対処する。二項重みに着目して、「ユニバーサル」相と「特殊化」相を分離する不連続相転移を明らかにする。第一に、一般化誤差は重量分布とは独立であり、サンプリングレート$n/d^2$でゆっくりと減衰する。後者では、誤差は重み分布に依存しており、生徒の教師ネットワークへのアライメントにより、より早く減衰する。したがって、補間付近で非常に予測性の高い解が存在することが明らかになるが、発見は困難である。

関連論文リスト

Generalization performance of narrow one-hidden layer networks in the teacher-student setting [40.69556943879117]
我々は、狭いネットワーク、すなわち多数の隠れユニットを持つネットワークに対して、入力次元よりもはるかに小さい一般理論を開発する。我々の理論は、回帰や分類タスクで訓練されたニューラルネットワークの一般化誤差を正確に予測する。
論文参考訳（メタデータ） (2025-07-01T10:18:20Z)
Weight-Sharing Regularization [35.65221859221282]
ニューラルネットワークのmathbbRd$の重み付き正規化(weight-sharing regularization)に対して,重み付き正規化(weight-sharing regularization)のペナルティを提案する。実験により、重み共有正規化により、ピクセルがシャッフルされた場合でも、完全に接続されたネットワークで畳み込みのようなフィルタを学習できることが明らかになった。
論文参考訳（メタデータ） (2023-11-06T13:37:34Z)
The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文参考訳（メタデータ） (2022-12-23T04:48:04Z)
Is Stochastic Gradient Descent Near Optimal? [0.0]
本研究では,多数のサンプルとクエリの総数を用いて,勾配勾配勾配の誤差が小さいことを示す。このことは、SGDがJoen & Van Roy (arXiv:2203.00246) の情報理論的なサンプル複雑性境界を計算的に効率よく達成していることを示唆している。
論文参考訳（メタデータ） (2022-09-18T18:26:43Z)
Bounding the Width of Neural Networks via Coupled Initialization -- A Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文参考訳（メタデータ） (2022-06-26T06:51:31Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
Correlation Functions in Random Fully Connected Neural Networks at Finite Width [17.51364577113718]
この記事では、ガウスのランダムな重みとバイアスと$L$の隠蔽層を持つ完全に接続されたニューラルネットワークについて考察する。有界非線形性に対しては、ネットワーク出力とその導関数の共役相関関数に対して1/n$の急激な再帰推定を与える。いずれの場合も、深さと幅の比$L/n$は、個々のニューロンのゆらぎのスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。
論文参考訳（メタデータ） (2022-04-03T11:57:18Z)
The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文参考訳（メタデータ） (2021-07-31T10:25:26Z)
The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文参考訳（メタデータ） (2021-06-22T21:28:00Z)
Locality defeats the curse of dimensionality in convolutional teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文参考訳（メタデータ） (2021-06-16T08:27:31Z)
Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文参考訳（メタデータ） (2021-06-07T10:18:54Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Structure Learning in Inverse Ising Problems Using $\ell_2$-Regularized Linear Estimator [8.89493507314525]
モデルミスマッチにも拘わらず,正則化を伴わずに線形回帰を用いてネットワーク構造を完璧に識別できることを示す。本稿では,2段階推定器を提案する。第1段階では隆起回帰を用い,比較的小さな閾値で推算を行う。適切な正規化係数としきい値を持つ推定器は、0M/N1$でもネットワーク構造の完全同定を実現する。
論文参考訳（メタデータ） (2020-08-19T09:11:33Z)
Random Vector Functional Link Networks for Function Approximation on Manifolds [8.535815777849786]
ランダムな入力-隠蔽層重みとバイアスを持つ単一層ニューラルネットが実際に成功していることを示す。さらに、このランダム化されたニューラルネットワークアーキテクチャをユークリッド空間の滑らかでコンパクトな部分多様体上の近似関数に適用する。
論文参考訳（メタデータ） (2020-07-30T23:50:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。