論文の概要: On the Activation Function Dependence of the Spectral Bias of Neural
Networks
- arxiv url: http://arxiv.org/abs/2208.04924v1
- Date: Tue, 9 Aug 2022 17:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:57:53.207861
- Title: On the Activation Function Dependence of the Spectral Bias of Neural
Networks
- Title(参考訳): ニューラルネットワークのスペクトルバイアスの活性化関数依存性について
- Authors: Qingguo Hong and Qinyang Tan and Jonathan W. Siegel and Jinchao Xu
- Abstract要約: ニューラルネットワークのスペクトルバイアスの観点から,この現象を考察する。
本稿では,ReLUニューラルネットワークのスペクトルバイアスを有限要素法との接続を利用して理論的に説明する。
我々は,Hatアクティベーション機能を持つニューラルネットワークが勾配降下とADAMを用いて大幅に高速にトレーニングされていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural networks are universal function approximators which are known to
generalize well despite being dramatically overparameterized. We study this
phenomenon from the point of view of the spectral bias of neural networks. Our
contributions are two-fold. First, we provide a theoretical explanation for the
spectral bias of ReLU neural networks by leveraging connections with the theory
of finite element methods. Second, based upon this theory we predict that
switching the activation function to a piecewise linear B-spline, namely the
Hat function, will remove this spectral bias, which we verify empirically in a
variety of settings. Our empirical studies also show that neural networks with
the Hat activation function are trained significantly faster using stochastic
gradient descent and ADAM. Combined with previous work showing that the Hat
activation function also improves generalization accuracy on image
classification tasks, this indicates that using the Hat activation provides
significant advantages over the ReLU on certain problems.
- Abstract(参考訳): ニューラルネットワークは、劇的に過パラメータ化されているにもかかわらず、よく一般化することが知られている普遍関数近似器である。
我々は,ニューラルネットワークのスペクトルバイアスの観点からこの現象を研究する。
私たちの貢献は2倍です。
まず,有限要素法の理論との接続を利用して,reluニューラルネットワークのスペクトルバイアスの理論的な説明を行う。
第二に、この理論に基づいて、活性化関数を一方向に線形なB-スプライン、すなわちハット関数に切り替えると、このスペクトルバイアスを除去し、様々な設定で実験的に検証する。
また,ハット活性化関数を持つニューラルネットワークは,確率的勾配降下とadamを用いて有意に高速に学習できることを示した。
Hatアクティベーション関数が画像分類タスクの一般化精度も向上することを示す以前の研究と組み合わせて、Hatアクティベーションの使用は特定の問題においてReLUに対して大きな利点をもたらすことを示している。
関連論文リスト
- ReLUs Are Sufficient for Learning Implicit Neural Representations [17.786058035763254]
暗黙的神経表現学習におけるReLUアクティベーション関数の使用について再考する。
2次B-スプラインウェーブレットにインスパイアされ、ディープニューラルネットワーク(DNN)の各層にReLUニューロンに一連の簡単な制約を組み込む。
我々は、一般的な信念とは対照的に、ReLUニューロンのみからなるDNNに基づいて最先端のINRを学習できることを実証した。
論文 参考訳(メタデータ) (2024-06-04T17:51:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Data-aware customization of activation functions reduces neural network
error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文 参考訳(メタデータ) (2023-01-16T23:38:37Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Phenomenology of Double Descent in Finite-Width Neural Networks [29.119232922018732]
二重降下(double descend)は、モデルが属する体制に依存して行動を記述する。
我々は影響関数を用いて、人口減少とその下限の適切な表現を導出する。
本分析に基づき,損失関数が二重降下に与える影響について検討した。
論文 参考訳(メタデータ) (2022-03-14T17:39:49Z) - The Spectral Bias of Polynomial Neural Networks [63.27903166253743]
PNN(Polynomial Neural Network)は、高頻度情報を重要視する画像生成と顔認識に特に有効であることが示されている。
これまでの研究では、ニューラルネットワークが低周波関数に対して$textitspectral bias$を示しており、トレーニング中に低周波成分のより高速な学習をもたらすことが示されている。
このような研究に触発されて、我々はPNNのTangent Kernel(NTK)のスペクトル分析を行う。
我々は、最近提案されたPNNのパラメトリゼーションである$Pi$-Netファミリがスピードアップすることを発見した。
論文 参考訳(メタデータ) (2022-02-27T23:12:43Z) - Periodic Activation Functions Induce Stationarity [19.689175123261613]
本研究では,ベイズニューラルネットワークにおける周期的活性化関数が,ネットワーク重みと翻訳不変な定常ガウス過程とを関連づけていることを示す。
一連の実験において、周期的アクティベーション関数はドメイン内のデータに匹敵する性能を示し、ドメイン外検出のための深層ニューラルネットワークにおける摂動入力に対する感度を捉える。
論文 参考訳(メタデータ) (2021-10-26T11:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。