論文の概要: Generalization performance of narrow one-hidden layer networks in the teacher-student setting
- arxiv url: http://arxiv.org/abs/2507.00629v2
- Date: Wed, 02 Jul 2025 15:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.570964
- Title: Generalization performance of narrow one-hidden layer networks in the teacher-student setting
- Title(参考訳): 教師-学生設定における狭い一重層ネットワークの一般化性能
- Authors: Jean Barbier, Federica Gerace, Alessandro Ingrosso, Clarissa Lauditi, Enrico M. Malatesta, Gibbs Nwemadji, Rodrigo Pérez Ortiz,
- Abstract要約: 我々は、狭いネットワーク、すなわち多数の隠れユニットを持つネットワークに対して、入力次元よりもはるかに小さい一般理論を開発する。
我々の理論は、回帰や分類タスクで訓練されたニューラルネットワークの一般化誤差を正確に予測する。
- 参考スコア(独自算出の注目度): 40.69556943879117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the generalization abilities of neural networks for simple input-output distributions is crucial to account for their learning performance on real datasets. The classical teacher-student setting, where a network is trained from data obtained thanks to a label-generating teacher model, serves as a perfect theoretical test bed. In this context, a complete theoretical account of the performance of fully connected one-hidden layer networks in the presence of generic activation functions is lacking. In this work, we develop such a general theory for narrow networks, i.e. networks with a large number of hidden units, yet much smaller than the input dimension. Using methods from statistical physics, we provide closed-form expressions for the typical performance of both finite temperature (Bayesian) and empirical risk minimization estimators, in terms of a small number of weight statistics. In doing so, we highlight the presence of a transition where hidden neurons specialize when the number of samples is sufficiently large and proportional to the number of parameters of the network. Our theory accurately predicts the generalization error of neural networks trained on regression or classification tasks with either noisy full-batch gradient descent (Langevin dynamics) or full-batch gradient descent.
- Abstract(参考訳): ニューラルネットワークの単純な入出力分布に対する一般化能力を理解することは、実際のデータセット上での学習性能を考慮する上で重要である。
ラベル生成型教師モデルによって得られたデータからネットワークをトレーニングする古典教師学生設定は、完璧な理論テストベッドとして機能する。
この文脈では、総称活性化関数の存在下での完全連結一重層ネットワークの性能に関する完全な理論的説明が欠如している。
本研究では,多数の隠蔽ユニットを持つネットワークに対して,入力次元よりもはるかに小さく,狭いネットワークに対するそのような一般理論を開発する。
統計物理学の手法を用いて、有限温度(ベイジアン)と経験的リスク最小化推定器の両方の典型的な性能に対して、少数の重み統計量の観点から閉形式表現を提供する。
そこで本研究では,標本数が十分に大きく,ネットワークのパラメータ数に比例する場合に,隠れたニューロンが専門化する遷移の存在を強調した。
本理論は, ノイズの多いフルバッチ勾配降下(Langevin dynamics)とフルバッチ勾配降下(Langevin dynamics)のどちらかを用いて, 回帰や分類タスクで訓練されたニューラルネットワークの一般化誤差を正確に予測する。
関連論文リスト
- Statistical mechanics of extensive-width Bayesian neural networks near interpolation [4.976898227858662]
総重量分布と活性化関数を持つ2層完全連結ネットワークの教師あり学習について検討した。
我々は、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを用いて、教師学生のシナリオにおけるベイズ最適学習に焦点を当てる。
分析の結果,データ数の増加に伴い,多様な学習遷移を伴う豊富な現象が明らかになった。
論文 参考訳(メタデータ) (2025-05-30T17:46:59Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - On the optimization and generalization of overparameterized implicit
neural networks [25.237054775800164]
機械学習コミュニティでは、暗黙のニューラルネットワークがますます魅力的になっている。
暗黙の層のみを訓練しても,グローバル収束が保証されることを示す。
本稿では,暗黙的ニューラルネットワークの一般化誤差について検討する。
論文 参考訳(メタデータ) (2022-09-30T16:19:46Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Slope and generalization properties of neural networks [0.0]
十分に訓練されたニューラルネットワーク分類器の勾配分布は、一般に、完全に接続されたネットワークの層幅から独立していることを示す。
傾斜は、関連する体積を通して類似した大きさであり、滑らかに変化する。また、再スケーリングの例でも予測されるように振る舞う。
本稿では、損失関数の一部として利用したり、ネットワークトレーニング中に基準を終了させたり、複雑度の観点からデータセットをランク付けしたりといった、斜面概念の応用の可能性について論じる。
論文 参考訳(メタデータ) (2021-07-03T17:54:27Z) - Perceptron Theory Can Predict the Accuracy of Neural Networks [6.136302173351179]
多層ニューラルネットワークは、多くの技術的分類問題に対する技術の現状を定めている。
しかし、これらのネットワークは基本的にはブラックボックスであり、分析してパフォーマンスを予測する。
本稿では, 1層パーセプトロンの統計的理論を開発し, 驚くほど多種多様なニューラルネットワークの性能を予測できることを示す。
論文 参考訳(メタデータ) (2020-12-14T19:02:26Z) - Neural Networks and Polynomial Regression. Demystifying the
Overparametrization Phenomena [17.205106391379026]
ニューラルネットワークモデルでは、過度パラメトリゼーション(overparametrization)は、これらのモデルが見えないデータに対してうまく一般化しているように見える現象を指す。
この現象の従来の説明は、データのトレーニングに使用されるアルゴリズムの自己正規化特性に基づいている。
教師ネットワークが生成したデータを補間する学生ネットワークは,少なくともデータ次元によって制御される明示的な量である場合,よく一般化することを示す。
論文 参考訳(メタデータ) (2020-03-23T20:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。