論文の概要: The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity
- arxiv url: http://arxiv.org/abs/2503.10587v1
- Date: Thu, 13 Mar 2025 17:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:25.295306
- Title: The Spectral Bias of Shallow Neural Network Learning is Shaped by the Choice of Non-linearity
- Title(参考訳): 非線型性の選択による浅層ニューラルネットワーク学習のスペクトルバイアス
- Authors: Justin Sahs, Ryan Pyle, Fabio Anselmi, Ankit Patel,
- Abstract要約: 非線形活性化関数がニューラルネットワークの暗黙バイアスの形成にどのように寄与するかを考察する。
局所的動的誘引器は、ニューロンの活性化関数への入力がゼロとなる超平面のクラスターの形成を促進することを示す。
- 参考スコア(独自算出の注目度): 0.7499722271664144
- License:
- Abstract: Despite classical statistical theory predicting severe overfitting, modern massively overparameterized neural networks still generalize well. This unexpected property is attributed to the network's so-called implicit bias, which describes its propensity to converge to solutions that generalize effectively, among the many possible that correctly label the training data. The aim of our research is to explore this bias from a new perspective, focusing on how non-linear activation functions contribute to shaping it. First, we introduce a reparameterization which removes a continuous weight rescaling symmetry. Second, in the kernel regime, we leverage this reparameterization to generalize recent findings that relate shallow Neural Networks to the Radon transform, deriving an explicit formula for the implicit bias induced by a broad class of activation functions. Specifically, by utilizing the connection between the Radon transform and the Fourier transform, we interpret the kernel regime's inductive bias as minimizing a spectral seminorm that penalizes high-frequency components, in a manner dependent on the activation function. Finally, in the adaptive regime, we demonstrate the existence of local dynamical attractors that facilitate the formation of clusters of hyperplanes where the input to a neuron's activation function is zero, yielding alignment between many neurons' response functions. We confirm these theoretical results with simulations. All together, our work provides a deeper understanding of the mechanisms underlying the generalization capabilities of overparameterized neural networks and its relation with the implicit bias, offering potential pathways for designing more efficient and robust models.
- Abstract(参考訳): 古典的な統計理論は過度なオーバーフィッティングを予測しているが、現代の大規模過度ニューラルネットワークは依然としてよく一般化されている。
この予期せぬ性質は、トレーニングデータを正しくラベル付けできる多くの可能性の中で、効果的に一般化する解に収束する確率を記述する、いわゆる暗黙バイアスによるものである。
我々の研究の目的は、このバイアスを新しい視点から探求することであり、非線形活性化関数がそれを形作るのにどのように貢献するかに焦点を当てることである。
まず、連続重み再スケーリング対称性を除去する再パラメータ化を導入する。
第二に、カーネルシステムでは、この再パラメータ化を利用して、浅いニューラルネットワークとラドン変換を関連付ける最近の知見を一般化し、幅広いアクティベーション関数のクラスによって引き起こされる暗黙のバイアスの明確な公式を導出する。
具体的には、ラドン変換とフーリエ変換の接続を利用して、活性化関数に依存する方法で高周波成分をペナル化するスペクトル半ノルムを最小化する核状態の帰納バイアスを解釈する。
最後に、適応的な状態において、ニューロンの活性化関数への入力がゼロとなる超平面のクラスターの形成を促進する局所的動的誘引器の存在を示し、多くのニューロンの応答関数間の整合性をもたらす。
我々はこれらの理論結果をシミュレーションで確認する。
全体として、我々の研究は、過パラメータ化されたニューラルネットワークの一般化能力の基礎となるメカニズムと、その暗黙のバイアスとの関係を深く理解し、より効率的で堅牢なモデルを設計するための潜在的な経路を提供する。
関連論文リスト
- On the Asymptotic Learning Curves of Kernel Ridge Regression under
Power-law Decay [17.306230523610864]
ノイズレベルが小さい場合のみ、非常に広いニューラルネットワークに「良性オーバーフィッティング現象」が存在することを示す。
この現象は,ノイズレベルが小さい場合にのみ,非常に広いニューラルネットワークに存在することが示唆された。
論文 参考訳(メタデータ) (2023-09-23T11:18:13Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - On the Activation Function Dependence of the Spectral Bias of Neural
Networks [0.0]
ニューラルネットワークのスペクトルバイアスの観点から,この現象を考察する。
本稿では,ReLUニューラルネットワークのスペクトルバイアスを有限要素法との接続を利用して理論的に説明する。
我々は,Hatアクティベーション機能を持つニューラルネットワークが勾配降下とADAMを用いて大幅に高速にトレーニングされていることを示す。
論文 参考訳(メタデータ) (2022-08-09T17:40:57Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - Modeling Implicit Bias with Fuzzy Cognitive Maps [0.0]
本稿では、構造化データセットにおける暗黙バイアスを定量化するファジィ認知マップモデルを提案する。
本稿では,ニューロンの飽和を防止する正規化様伝達関数を備えた新しい推論機構を提案する。
論文 参考訳(メタデータ) (2021-12-23T17:04:12Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Spectral Bias and Task-Model Alignment Explain Generalization in Kernel
Regression and Infinitely Wide Neural Networks [17.188280334580195]
トレーニングデータセットを越えた一般化は、マシンラーニングの主な目標である。
最近のディープニューラルネットワークの観測は、古典統計学の従来の知恵と矛盾している。
より多くのデータが、カーネルがノイズや表現できないときに一般化を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:53:11Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。