論文の概要: Ridge Regression with Over-Parametrized Two-Layer Networks Converge to
Ridgelet Spectrum
- arxiv url: http://arxiv.org/abs/2007.03441v2
- Date: Fri, 19 Feb 2021 07:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 18:58:13.885778
- Title: Ridge Regression with Over-Parametrized Two-Layer Networks Converge to
Ridgelet Spectrum
- Title(参考訳): オーバーパラメータ2層ネットワークを用いたリッジ回帰はリッジレットスペクトルに収束する
- Authors: Sho Sonoda, Isao Ishikawa, Masahiro Ikeda
- Abstract要約: パラメータの分布は、リッジレット変換のスペクトルに収束することを示す。
この結果は、ニューラルネットワークの局所的なミニマを特徴づける新たな洞察を与える。
- 参考スコア(独自算出の注目度): 10.05944106581306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Characterization of local minima draws much attention in theoretical studies
of deep learning. In this study, we investigate the distribution of parameters
in an over-parametrized finite neural network trained by ridge regularized
empirical square risk minimization (RERM). We develop a new theory of ridgelet
transform, a wavelet-like integral transform that provides a powerful and
general framework for the theoretical study of neural networks involving not
only the ReLU but general activation functions. We show that the distribution
of the parameters converges to a spectrum of the ridgelet transform. This
result provides a new insight into the characterization of the local minima of
neural networks, and the theoretical background of an inductive bias theory
based on lazy regimes. We confirm the visual resemblance between the parameter
distribution trained by SGD, and the ridgelet spectrum calculated by numerical
integration through numerical experiments with finite models.
- Abstract(参考訳): 局所的なミニマの特徴は、深層学習の理論研究において多くの注目を集めている。
本研究では,リッジ正規化実証二乗リスク最小化(RERM)により訓練された過パラメータ化有限ニューラルネットワークのパラメータ分布について検討した。
我々は,relu関数だけでなく一般活性化関数も含むニューラルネットワークの理論研究のための強力な汎用的枠組みを提供するウェーブレット様積分変換であるリッジレット変換の新しい理論を開発した。
パラメータの分布は、リッジレット変換のスペクトルに収束することを示す。
この結果は、ニューラルネットワークの局所的ミニマムの特徴づけと遅延状態に基づく帰納的バイアス理論の理論的背景に関する新たな洞察を与える。
有限モデルを用いた数値実験により,SGDで訓練したパラメータ分布と数値積分により算出したリッジレットスペクトルとの視覚的類似性を確認した。
関連論文リスト
- Learning Theory of Distribution Regression with Neural Networks [6.961253535504979]
完全連結ニューラルネットワーク(FNN)による近似理論と分布回帰の学習理論を確立する。
古典回帰法とは対照的に、分布回帰の入力変数は確率測度である。
論文 参考訳(メタデータ) (2023-07-07T09:49:11Z) - A Lifted Bregman Formulation for the Inversion of Deep Neural Networks [28.03724379169264]
本稿では,ディープニューラルネットワークの正規化インバージョンのための新しいフレームワークを提案する。
このフレームワークは、補助変数を導入することにより、パラメータ空間を高次元空間に引き上げる。
理論的結果を提示し,その実用的応用を数値的な例で支援する。
論文 参考訳(メタデータ) (2023-03-01T20:30:22Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Nonasymptotic theory for two-layer neural networks: Beyond the
bias-variance trade-off [10.182922771556742]
本稿では,ReLUアクティベーション機能を持つ2層ニューラルネットワークに対する漸近的一般化理論を提案する。
過度にパラメータ化されたランダムな特徴モデルは次元性の呪いに悩まされ、従って準最適であることを示す。
論文 参考訳(メタデータ) (2021-06-09T03:52:18Z) - Training Sparse Neural Network by Constraining Synaptic Weight on Unit
Lp Sphere [2.429910016019183]
単位 Lp-球面上のシナプス重みを制約することにより、p で空間を柔軟に制御することができる。
このアプローチは、幅広いドメインをカバーするベンチマークデータセットの実験によって検証されます。
論文 参考訳(メタデータ) (2021-03-30T01:02:31Z) - Double-descent curves in neural networks: a new perspective using
Gaussian processes [9.153116600213641]
ニューラルネットワークの二重輝線曲線は、一般化誤差が最初にパラメータの増加とともに下降し、最適数のパラメータに達した後に成長する現象を記述している。
本稿では,ニューラルネットワークガウス過程カーネルのスペクトルの幅依存性として,経験的特徴共分散行列のスペクトル分布を特徴付けるために,ランダム行列理論の手法を用いる。
論文 参考訳(メタデータ) (2021-02-14T20:31:49Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Provably Efficient Neural Estimation of Structural Equation Model: An
Adversarial Approach [144.21892195917758]
一般化構造方程式モデル(SEM)のクラスにおける推定について検討する。
線形作用素方程式をmin-maxゲームとして定式化し、ニューラルネットワーク(NN)でパラメータ化し、勾配勾配を用いてニューラルネットワークのパラメータを学習する。
提案手法は,サンプル分割を必要とせず,確固とした収束性を持つNNをベースとしたSEMの抽出可能な推定手順を初めて提供する。
論文 参考訳(メタデータ) (2020-07-02T17:55:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。