論文の概要: Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation
- arxiv url: http://arxiv.org/abs/2510.24616v1
- Date: Tue, 28 Oct 2025 16:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.284127
- Title: Statistical physics of deep learning: Optimal learning of a multi-layer perceptron near interpolation
- Title(参考訳): 深層学習の統計物理:補間近傍の多層パーセプトロンの最適学習
- Authors: Jean Barbier, Francesco Camilli, Minh-Toan Nguyen, Mauro Pastore, Rudy Skerk,
- Abstract要約: 多層パーセプトロンの教師あり学習について検討する。
トレーニング可能なパラメータとデータの数が同等となる、困難な状況に注目します。
その単純さにもかかわらず、ベイズ最適設定は、深さ、非線形性、および有限幅がニューラルネットワークにどのように影響するかについての洞察を与える。
- 参考スコア(独自算出の注目度): 7.079039376205091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For three decades statistical physics has been providing a framework to analyse neural networks. A long-standing question remained on its capacity to tackle deep learning models capturing rich feature learning effects, thus going beyond the narrow networks or kernel methods analysed until now. We positively answer through the study of the supervised learning of a multi-layer perceptron. Importantly, (i) its width scales as the input dimension, making it more prone to feature learning than ultra wide networks, and more expressive than narrow ones or with fixed embedding layers; and (ii) we focus on the challenging interpolation regime where the number of trainable parameters and data are comparable, which forces the model to adapt to the task. We consider the matched teacher-student setting. It provides the fundamental limits of learning random deep neural network targets and helps in identifying the sufficient statistics describing what is learnt by an optimally trained network as the data budget increases. A rich phenomenology emerges with various learning transitions. With enough data optimal performance is attained through model's "specialisation" towards the target, but it can be hard to reach for training algorithms which get attracted by sub-optimal solutions predicted by the theory. Specialisation occurs inhomogeneously across layers, propagating from shallow towards deep ones, but also across neurons in each layer. Furthermore, deeper targets are harder to learn. Despite its simplicity, the Bayesian-optimal setting provides insights on how the depth, non-linearity and finite (proportional) width influence neural networks in the feature learning regime that are potentially relevant way beyond it.
- Abstract(参考訳): 30年間、統計物理学はニューラルネットワークを分析するためのフレームワークを提供してきた。
長年にわたる疑問は、豊富な特徴学習効果をキャプチャするディープラーニングモデルに取り組む能力に留まっていたため、これまで分析された狭いネットワークやカーネルメソッドを越えていた。
我々は多層パーセプトロンの教師あり学習の研究を通じて肯定的に答える。
重要なのは
(i)その幅は入力次元としてスケールし、超広帯域ネットワークよりも特徴学習がしやすく、狭いネットワークや固定層よりも表現力が高い。
(II) トレーニング可能なパラメータとデータの数が同等であり, モデルをタスクに適応させるという, 難解な補間体制に着目する。
私たちはマッチした教師学生の設定を考えます。
これは、ランダムなディープニューラルネットワークターゲットを学習する基本的な制限を提供し、データ予算が増加するにつれて、最適に訓練されたネットワークで何が学習されているかを記述した十分な統計を識別するのに役立つ。
豊かな現象学は様々な学習の遷移とともに現れる。
十分なデータの最適性能は、モデルが目標に向かって「特殊化」することで達成されるが、理論によって予測される準最適解に惹かれる訓練アルゴリズムに到達するのは困難である。
特殊化は層間で不均一に発生し、浅いものから深いものへと伝播するが、各層内のニューロン間でも起こる。
さらに、より深い目標を学習するのは困難です。
その単純さにも拘わらず、ベイズ最適設定は、深度、非線形性、および有限(比例的な)幅が、それを超える可能性のある機能学習体制におけるニューラルネットワークにどのように影響するかについての洞察を提供する。
関連論文リスト
- Statistical mechanics of extensive-width Bayesian neural networks near interpolation [4.976898227858662]
総重量分布と活性化関数を持つ2層完全連結ネットワークの教師あり学習について検討した。
我々は、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを用いて、教師学生のシナリオにおけるベイズ最適学習に焦点を当てる。
分析の結果,データ数の増加に伴い,多様な学習遷移を伴う豊富な現象が明らかになった。
論文 参考訳(メタデータ) (2025-05-30T17:46:59Z) - Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Adaptive Width Neural Networks [22.94363065387228]
トレーニング中にニューラルネットワークの層の境界のない幅を学習するために,使い易い手法を導入する。
この手法を,テーブル,画像,テキスト,シーケンス,グラフなど,幅広いデータ領域に適用する。
論文 参考訳(メタデータ) (2025-01-27T09:25:56Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。