論文の概要: A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2101.04243v2
- Date: Mon, 8 Feb 2021 11:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:47:29.803946
- Title: A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks
- Title(参考訳): 実用的超パラメータ深層ニューラルネットワークへの収束理論
- Authors: Asaf Noy, Yi Xu, Yonathan Aflalo, Lihi Zelnik-Manor, Rong Jin
- Abstract要約: ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
- 参考スコア(独自算出の注目度): 56.084798078072396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks' remarkable ability to correctly fit training data when
optimized by gradient-based algorithms is yet to be fully understood. Recent
theoretical results explain the convergence for ReLU networks that are wider
than those used in practice by orders of magnitude. In this work, we take a
step towards closing the gap between theory and practice by significantly
improving the known theoretical bounds on both the network width and the
convergence time. We show that convergence to a global minimum is guaranteed
for networks with widths quadratic in the sample size and linear in their depth
at a time logarithmic in both. Our analysis and convergence bounds are derived
via the construction of a surrogate network with fixed activation patterns that
can be transformed at any time to an equivalent ReLU network of a reasonable
size. This construction can be viewed as a novel technique to accelerate
training, while its tight finite-width equivalence to Neural Tangent Kernel
(NTK) suggests it can be utilized to study generalization as well.
- Abstract(参考訳): 勾配に基づくアルゴリズムによって最適化された場合、トレーニングデータを正しく適合させるディープニューラルネットワークの顕著な能力は、まだ完全には理解されていない。
近年の理論的結果は、実際に使用されるものよりも桁違いに広いReLUネットワークの収束を説明する。
本研究では,ネットワーク幅と収束時間の両方の既知の理論境界を大幅に改善することにより,理論と実践のギャップを埋めるための一歩を踏み出した。
また,全球最小値への収束は,サンプルサイズが2次で深さが線形なネットワークに対して保証されることを示した。
解析および収束境界は、任意のタイミングで適切な大きさのReLUネットワークに変換可能な、一定の活性化パターンを持つ代理ネットワークの構築によって導出される。
この構造はトレーニングを加速する新しい手法と見なすことができるが、ニューラルタンジェントカーネル(NTK)に対する有限幅同値性は、一般化の研究にも利用できることを示唆している。
関連論文リスト
- Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Feature Learning and Generalization in Deep Networks with Orthogonal Weights [1.7956122940209063]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示す。
行列のアンサンブルから得られるタン・アクティベーションと重みを持つ長方形のネットワークが、それに対応する事前アクティベーション・揺らぎを持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。