論文の概要: From Kernels to Features: A Multi-Scale Adaptive Theory of Feature Learning
- arxiv url: http://arxiv.org/abs/2502.03210v1
- Date: Wed, 05 Feb 2025 14:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:15.318483
- Title: From Kernels to Features: A Multi-Scale Adaptive Theory of Feature Learning
- Title(参考訳): カーネルから機能へ: 機能学習のマルチスケール適応理論
- Authors: Noa Rubin, Kirsten Fischer, Javed Lindner, David Dahmen, Inbar Seroussi, Zohar Ringel, Michael Krämer, Moritz Helias,
- Abstract要約: この研究は、様々なアプローチをブリッジするマルチスケール適応的特徴学習の理論的枠組みを示す。
ネットワークの確率分布の体系的な拡張により、平均場スケーリングはサドル点近似のみを必要とすることが明らかになった。
注目すべきは、線形ネットワークの平均ネットワーク出力を予測する際に、カーネル適応を有効なカーネル再スケーリングに還元できることである。
- 参考スコア(独自算出の注目度): 3.7857410821449755
- License:
- Abstract: Theoretically describing feature learning in neural networks is crucial for understanding their expressive power and inductive biases, motivating various approaches. Some approaches describe network behavior after training through a simple change in kernel scale from initialization, resulting in a generalization power comparable to a Gaussian process. Conversely, in other approaches training results in the adaptation of the kernel to the data, involving complex directional changes to the kernel. While these approaches capture different facets of network behavior, their relationship and respective strengths across scaling regimes remains an open question. This work presents a theoretical framework of multi-scale adaptive feature learning bridging these approaches. Using methods from statistical mechanics, we derive analytical expressions for network output statistics which are valid across scaling regimes and in the continuum between them. A systematic expansion of the network's probability distribution reveals that mean-field scaling requires only a saddle-point approximation, while standard scaling necessitates additional correction terms. Remarkably, we find across regimes that kernel adaptation can be reduced to an effective kernel rescaling when predicting the mean network output of a linear network. However, even in this case, the multi-scale adaptive approach captures directional feature learning effects, providing richer insights than what could be recovered from a rescaling of the kernel alone.
- Abstract(参考訳): ニューラルネットワークにおける特徴学習を理論的に記述することは、表現力と帰納バイアスを理解するために不可欠であり、様々なアプローチを動機付けている。
いくつかのアプローチでは、初期化からカーネルスケールの単純な変化を通じてトレーニング後のネットワークの挙動を記述し、ガウス過程に匹敵する一般化能力をもたらす。
逆に、他のアプローチでは、トレーニングはカーネルをデータに適応させ、カーネルに複雑な方向変化をもたらす。
これらのアプローチは、ネットワーク行動の異なる側面を捉えているが、それらの関係とスケーリング体制におけるそれぞれの強みは、依然として未解決の課題である。
本研究は,これらのアプローチを橋渡しする多段階適応型特徴学習の理論的枠組みを示す。
統計力学の手法を用いて,ネットワーク出力統計量の解析式を導出する。
ネットワークの確率分布の体系的な拡張により、平均場スケーリングはサドル点近似のみを必要とし、標準スケーリングは追加の補正項を必要とすることが明らかになった。
注目すべきは、線形ネットワークの平均ネットワーク出力を予測する際に、カーネル適応を有効なカーネル再スケーリングに還元できることである。
しかし、この場合でさえ、マルチスケール適応アプローチは指向性の特徴学習効果を捉え、カーネルの再スケーリングから回復できるものよりも豊富な洞察を提供する。
関連論文リスト
- An Analytic Solution to Covariance Propagation in Neural Networks [10.013553984400488]
本稿では,ニューラルネットワークの入出力分布を正確に特徴付けるために,サンプルフリーモーメント伝搬法を提案する。
この手法の鍵となる有効性は、非線形活性化関数を通した確率変数の共分散に対する解析解である。
学習ニューラルネットワークの入力出力分布を分析し,ベイズニューラルネットワークを訓練する実験において,提案手法の適用性およびメリットを示す。
論文 参考訳(メタデータ) (2024-03-24T14:08:24Z) - A theory of data variability in Neural Network Bayesian inference [0.70224924046445]
無限広ネットワークの一般化特性をカバーする場理論形式論を提供する。
入力の統計的性質から一般化特性を導出する。
データ可変性は、(varphi3+varphi4$)-理論を思い起こさせる非ガウス的作用をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-31T14:11:32Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Self-Consistent Dynamical Field Theory of Kernel Evolution in Wide
Neural Networks [18.27510863075184]
勾配流を学習した無限幅ニューラルネットワークにおける特徴学習を,自己整合力学場理論を用いて解析する。
本研究では,各層に隠れた単位活性化と勾配を示す内積カーネルである決定論的動的順序パラメータの集合を,時間点のペアで構築する。
論文 参考訳(メタデータ) (2022-05-19T16:10:10Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - The Principles of Deep Learning Theory [19.33681537640272]
この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
論文 参考訳(メタデータ) (2021-06-18T15:00:00Z) - Deep Archimedean Copulas [98.96141706464425]
ACNetは、構造的特性を強制する、新しい差別化可能なニューラルネットワークアーキテクチャである。
我々は、ACNetが共通のアルキメデスコピュラスを近似し、データに適合する可能性のある新しいコプラを生成することができることを示した。
論文 参考訳(メタデータ) (2020-12-05T22:58:37Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。