論文の概要: Frequency Bias in Neural Networks for Input of Non-Uniform Density
- arxiv url: http://arxiv.org/abs/2003.04560v1
- Date: Tue, 10 Mar 2020 07:20:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:35:09.057664
- Title: Frequency Bias in Neural Networks for Input of Non-Uniform Density
- Title(参考訳): 非均一密度入力のためのニューラルネットワークの周波数バイアス
- Authors: Ronen Basri, Meirav Galun, Amnon Geifman, David Jacobs, Yoni Kasten,
Shira Kritchman
- Abstract要約: ニューラル・タンジェント・カーネル(NTK)モデルを用いて、変動密度がトレーニング力学に与える影響を探索する。
我々の結果は、Sphered-1$ の点 $x における収束は、時間 $O(kappad/p(x))$ ここで、$p(x)$ は局所密度$x$ を表す。
- 参考スコア(独自算出の注目度): 27.75835200173761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have partly attributed the generalization ability of
over-parameterized neural networks to frequency bias -- networks trained with
gradient descent on data drawn from a uniform distribution find a low frequency
fit before high frequency ones. As realistic training sets are not drawn from a
uniform distribution, we here use the Neural Tangent Kernel (NTK) model to
explore the effect of variable density on training dynamics. Our results, which
combine analytic and empirical observations, show that when learning a pure
harmonic function of frequency $\kappa$, convergence at a point $\x \in
\Sphere^{d-1}$ occurs in time $O(\kappa^d/p(\x))$ where $p(\x)$ denotes the
local density at $\x$. Specifically, for data in $\Sphere^1$ we analytically
derive the eigenfunctions of the kernel associated with the NTK for two-layer
networks. We further prove convergence results for deep, fully connected
networks with respect to the spectral decomposition of the NTK. Our empirical
study highlights similarities and differences between deep and shallow networks
in this model.
- Abstract(参考訳): 最近の研究は、過パラメータニューラルネットの一般化能力を周波数バイアスに帰している。一様分布から引き出されたデータに勾配降下を訓練したネットワークは、高周波のニューラルネットワークよりも低い周波数に適合する。
現実的なトレーニングセットは均一な分布から引き出されないため、我々はニューラルネットワーク・タンジェント・カーネル(NTK)モデルを用いて、学習力学における変動密度の影響を探索する。
その結果、周波数の純調和関数である$\kappa$ を学習すると、点 $\x \in \sphere^{d-1}$ での収束は時刻 $o(\kappa^d/p(\x))$ ここで $p(\x)$ は局所密度 $\x$ を表す。
具体的には、$\Sphere^1$のデータに対して、2層ネットワークのNTKに関連するカーネルの固有関数を解析的に導出する。
さらに、NTKのスペクトル分解に関して、深い完全連結ネットワークに対する収束結果を証明した。
実験では,このモデルにおける深層ネットワークと浅層ネットワークの類似性と差異に注目した。
関連論文リスト
- Generative Kaleidoscopic Networks [2.321684718906739]
我々は、このニューラルネットワークの特性を利用して、ジェネレーティブ・カレイドスコープと呼ばれるデータセット・カレイドスコープを設計する。
我々は、CNN、Transformers、U-Netsといった他のディープラーニングアーキテクチャに対して、この現象を様々な程度に観測した。
論文 参考訳(メタデータ) (2024-02-19T02:48:40Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Understanding the Spectral Bias of Coordinate Based MLPs Via Training
Dynamics [2.9443230571766854]
本稿では,ReLUネットワークの計算結果と勾配勾配収束速度の関連性について検討する。
次に、この定式化を用いて、低次元設定におけるスペクトルバイアスの重症度と位置符号化がこれを克服する方法について研究する。
論文 参考訳(メタデータ) (2023-01-14T04:21:25Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - The Spectral Bias of Polynomial Neural Networks [63.27903166253743]
PNN(Polynomial Neural Network)は、高頻度情報を重要視する画像生成と顔認識に特に有効であることが示されている。
これまでの研究では、ニューラルネットワークが低周波関数に対して$textitspectral bias$を示しており、トレーニング中に低周波成分のより高速な学習をもたらすことが示されている。
このような研究に触発されて、我々はPNNのTangent Kernel(NTK)のスペクトル分析を行う。
我々は、最近提案されたPNNのパラメトリゼーションである$Pi$-Netファミリがスピードアップすることを発見した。
論文 参考訳(メタデータ) (2022-02-27T23:12:43Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Revision of Neural Tangent Kernel-based Approaches for Neural Networks [34.75076385561115]
ニューラルネットワークカーネルを使用して、ネットワークが任意の有限トレーニングサンプルに完全に適合できることを示す。
単純で解析的なカーネル関数は、完全に訓練されたネットワークと同等のものとして導出された。
より厳密な分析により,スケーリングの問題が解決され,元のNTKに基づく結果の検証が可能となった。
論文 参考訳(メタデータ) (2020-07-02T05:07:55Z) - A Generalized Neural Tangent Kernel Analysis for Two-layer Neural
Networks [87.23360438947114]
重み劣化を伴う雑音勾配降下は依然として「カーネル様」の挙動を示すことを示す。
これは、トレーニング損失が一定の精度まで線形に収束することを意味する。
また,重み劣化を伴う雑音勾配勾配勾配で学習した2層ニューラルネットワークに対して,新しい一般化誤差を確立する。
論文 参考訳(メタデータ) (2020-02-10T18:56:15Z) - Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural
Networks [17.188280334580195]
トレーニングサンプル数の関数として,カーネル回帰の一般化性能に関する解析式を導出する。
我々の表現は、トレーニングとニューラルカーネル・タンジェント(NTK)によるカーネル回帰の等価性により、広いニューラルネットワークに適用される。
我々は、合成データとMNISTデータセットのシミュレーションを用いて、我々の理論を検証する。
論文 参考訳(メタデータ) (2020-02-07T00:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。