論文の概要: Statistical mechanics of extensive-width Bayesian neural networks near interpolation
- arxiv url: http://arxiv.org/abs/2505.24849v1
- Date: Fri, 30 May 2025 17:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.111338
- Title: Statistical mechanics of extensive-width Bayesian neural networks near interpolation
- Title(参考訳): 補間近傍の広帯域ベイズニューラルネットワークの統計力学
- Authors: Jean Barbier, Francesco Camilli, Minh-Toan Nguyen, Mauro Pastore, Rudy Skerk,
- Abstract要約: 総重量分布と活性化関数を持つ2層完全連結ネットワークの教師あり学習について検討した。
我々は、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを用いて、教師学生のシナリオにおけるベイズ最適学習に焦点を当てる。
分析の結果,データ数の増加に伴い,多様な学習遷移を伴う豊富な現象が明らかになった。
- 参考スコア(独自算出の注目度): 4.976898227858662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For three decades statistical mechanics has been providing a framework to analyse neural networks. However, the theoretically tractable models, e.g., perceptrons, random features models and kernel machines, or multi-index models and committee machines with few neurons, remained simple compared to those used in applications. In this paper we help reducing the gap between practical networks and their theoretical understanding through a statistical physics analysis of the supervised learning of a two-layer fully connected network with generic weight distribution and activation function, whose hidden layer is large but remains proportional to the inputs dimension. This makes it more realistic than infinitely wide networks where no feature learning occurs, but also more expressive than narrow ones or with fixed inner weights. We focus on the Bayes-optimal learning in the teacher-student scenario, i.e., with a dataset generated by another network with the same architecture. We operate around interpolation, where the number of trainable parameters and of data are comparable and feature learning emerges. Our analysis uncovers a rich phenomenology with various learning transitions as the number of data increases. In particular, the more strongly the features (i.e., hidden neurons of the target) contribute to the observed responses, the less data is needed to learn them. Moreover, when the data is scarce, the model only learns non-linear combinations of the teacher weights, rather than "specialising" by aligning its weights with the teacher's. Specialisation occurs only when enough data becomes available, but it can be hard to find for practical training algorithms, possibly due to statistical-to-computational~gaps.
- Abstract(参考訳): 30年間、統計力学はニューラルネットワークを分析するためのフレームワークを提供してきた。
しかし、理論的に抽出可能なモデル、例えばパーセプトロン、ランダムな特徴モデルとカーネルマシン、あるいは少数のニューロンを持つマルチインデックスモデルと委員会マシンは、アプリケーションで使用されるモデルに比べて単純であった。
本稿では,隠れ層が大きいが入力次元に比例する2層完全連結ネットワークの一般化重み分布と活性化関数による教師あり学習の統計的物理解析により,実用的ネットワークと理論的理解とのギャップの低減を支援する。
これにより、特徴学習が行われない無限に広いネットワークよりも現実的になり、狭いネットワークや固定された内部重みを持つネットワークよりも表現力が高い。
我々は、同じアーキテクチャを持つ別のネットワークによって生成されたデータセットを用いて、教師学生のシナリオにおけるベイズ最適学習に焦点を当てる。
私たちは、トレーニング可能なパラメータとデータの数が同等であり、機能学習が出現する補間を中心に運用しています。
分析の結果,データ数の増加に伴い,多様な学習遷移を伴う豊富な現象が明らかになった。
特に、観測された応答に強い特徴(すなわち標的の隠れニューロン)が寄与するほど、学習に必要なデータが少なくなる。
さらに、データが不足している場合、モデルは教師の重みと重みを合わせることで「特殊化」ではなく、教師の重みの非線形な組み合わせのみを学習する。
専門化は、十分なデータが利用可能になった場合にのみ行われるが、おそらく統計的から計算的な—ギャップのために、実用的なトレーニングアルゴリズムを見つけることは困難である。
関連論文リスト
- Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - An Entropy-Based Model for Hierarchical Learning [3.1473798197405944]
実世界のデータセットに共通する特徴は、データドメインがマルチスケールであることである。
本稿では,このマルチスケールデータ構造を利用した学習モデルを提案する。
階層的な学習モデルは、人間の論理的かつ進歩的な学習メカニズムにインスパイアされている。
論文 参考訳(メタデータ) (2022-12-30T13:14:46Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - An Information-Theoretic Framework for Supervised Learning [22.280001450122175]
後悔とサンプルの複雑さという独自の概念を持つ新しい情報理論フレームワークを提案する。
本稿では、ReLUアクティベーションユニットを用いたディープニューラルネットワークによって生成されたデータから学習する際のサンプルの複雑さについて検討する。
我々は、ランダムな単層ニューラルネットワークの実験的な解析により、理論結果を裏付けることで結論付ける。
論文 参考訳(メタデータ) (2022-03-01T05:58:28Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Graph network for simultaneous learning of forward and inverse physics [0.0]
本稿では,解釈可能な帰納バイアスを用いて粒子物理学の前方および逆モデルを学ぶエンド・ツー・エンドグラフネットワークを提案する。
我々の手法は、少なくとも1桁高い精度で前方ダイナミクスを予測できる。
論文 参考訳(メタデータ) (2021-12-13T22:38:09Z) - Statistical Mechanical Analysis of Catastrophic Forgetting in Continual
Learning with Teacher and Student Networks [5.209145866174911]
計算システムが絶えず変化する環境から学習すると、その過去の経験を急速に忘れてしまう。
教師-学生学習を用いて破滅的な忘れを解析するための理論的枠組みを提供する。
その結果,入力分布の類似度が小さく,対象関数の入出力関係が大きい場合,ネットワークは壊滅的な記憶を回避できることがわかった。
論文 参考訳(メタデータ) (2021-05-16T09:02:48Z) - Malicious Network Traffic Detection via Deep Learning: An Information
Theoretic View [0.0]
本研究では,ホメオモルフィズムがマルウェアのトラフィックデータセットの学習表現に与える影響について検討する。
この結果から,学習された表現の詳細と,すべてのパラメータの多様体上で定義された特定の座標系は,関数近似とは全く異なることが示唆された。
論文 参考訳(メタデータ) (2020-09-16T15:37:44Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。