論文の概要: Ridge Regression with Over-Parametrized Two-Layer Networks Converge to
Ridgelet Spectrum
- arxiv url: http://arxiv.org/abs/2007.03441v2
- Date: Fri, 19 Feb 2021 07:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:58:13.885778
- Title: Ridge Regression with Over-Parametrized Two-Layer Networks Converge to
Ridgelet Spectrum
- Title(参考訳): オーバーパラメータ2層ネットワークを用いたリッジ回帰はリッジレットスペクトルに収束する
- Authors: Sho Sonoda, Isao Ishikawa, Masahiro Ikeda
- Abstract要約: パラメータの分布は、リッジレット変換のスペクトルに収束することを示す。
この結果は、ニューラルネットワークの局所的なミニマを特徴づける新たな洞察を与える。
- 参考スコア(独自算出の注目度): 10.05944106581306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Characterization of local minima draws much attention in theoretical studies
of deep learning. In this study, we investigate the distribution of parameters
in an over-parametrized finite neural network trained by ridge regularized
empirical square risk minimization (RERM). We develop a new theory of ridgelet
transform, a wavelet-like integral transform that provides a powerful and
general framework for the theoretical study of neural networks involving not
only the ReLU but general activation functions. We show that the distribution
of the parameters converges to a spectrum of the ridgelet transform. This
result provides a new insight into the characterization of the local minima of
neural networks, and the theoretical background of an inductive bias theory
based on lazy regimes. We confirm the visual resemblance between the parameter
distribution trained by SGD, and the ridgelet spectrum calculated by numerical
integration through numerical experiments with finite models.
- Abstract(参考訳): 局所的なミニマの特徴は、深層学習の理論研究において多くの注目を集めている。
本研究では,リッジ正規化実証二乗リスク最小化(RERM)により訓練された過パラメータ化有限ニューラルネットワークのパラメータ分布について検討した。
我々は,relu関数だけでなく一般活性化関数も含むニューラルネットワークの理論研究のための強力な汎用的枠組みを提供するウェーブレット様積分変換であるリッジレット変換の新しい理論を開発した。
パラメータの分布は、リッジレット変換のスペクトルに収束することを示す。
この結果は、ニューラルネットワークの局所的ミニマムの特徴づけと遅延状態に基づく帰納的バイアス理論の理論的背景に関する新たな洞察を与える。
有限モデルを用いた数値実験により,SGDで訓練したパラメータ分布と数値積分により算出したリッジレットスペクトルとの視覚的類似性を確認した。
関連論文リスト
- Novel Kernel Models and Exact Representor Theory for Neural Networks Beyond the Over-Parameterized Regime [52.00917519626559]
本稿では、ニューラルネットワークの2つのモデルと、任意の幅、深さ、トポロジーのニューラルネットワークに適用可能なトレーニングについて述べる。
また、局所外在性神経核(LeNK)の観点から、非正規化勾配降下を伴う階層型ニューラルネットワークトレーニングのための正確な表現子理論を提示する。
この表現論は、ニューラルネットワークトレーニングにおける高次統計学の役割と、ニューラルネットワークのカーネルモデルにおけるカーネル進化の影響について洞察を与える。
論文 参考訳(メタデータ) (2024-05-24T06:30:36Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Learning Theory of Distribution Regression with Neural Networks [6.961253535504979]
完全連結ニューラルネットワーク(FNN)による近似理論と分布回帰の学習理論を確立する。
古典回帰法とは対照的に、分布回帰の入力変数は確率測度である。
論文 参考訳(メタデータ) (2023-07-07T09:49:11Z) - Neural Characteristic Activation Analysis and Geometric Parameterization for ReLU Networks [2.2713084727838115]
本稿では,個々のニューロンの特徴的活性化境界を調べることによって,ReLUネットワークのトレーニングダイナミクスを解析するための新しいアプローチを提案する。
提案手法は,コンバージェンス最適化におけるニューラルネットワークのパラメータ化と正規化において重要な不安定性を示し,高速収束を阻害し,性能を損なう。
論文 参考訳(メタデータ) (2023-05-25T10:19:13Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Training Sparse Neural Network by Constraining Synaptic Weight on Unit
Lp Sphere [2.429910016019183]
単位 Lp-球面上のシナプス重みを制約することにより、p で空間を柔軟に制御することができる。
このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。
論文 参考訳(メタデータ) (2021-03-30T01:02:31Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。