論文の概要: A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2101.04243v2
- Date: Mon, 8 Feb 2021 11:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 01:47:29.803946
- Title: A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks
- Title(参考訳): 実用的超パラメータ深層ニューラルネットワークへの収束理論
- Authors: Asaf Noy, Yi Xu, Yonathan Aflalo, Lihi Zelnik-Manor, Rong Jin
- Abstract要約: ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
- 参考スコア(独自算出の注目度): 56.084798078072396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks' remarkable ability to correctly fit training data when
optimized by gradient-based algorithms is yet to be fully understood. Recent
theoretical results explain the convergence for ReLU networks that are wider
than those used in practice by orders of magnitude. In this work, we take a
step towards closing the gap between theory and practice by significantly
improving the known theoretical bounds on both the network width and the
convergence time. We show that convergence to a global minimum is guaranteed
for networks with widths quadratic in the sample size and linear in their depth
at a time logarithmic in both. Our analysis and convergence bounds are derived
via the construction of a surrogate network with fixed activation patterns that
can be transformed at any time to an equivalent ReLU network of a reasonable
size. This construction can be viewed as a novel technique to accelerate
training, while its tight finite-width equivalence to Neural Tangent Kernel
(NTK) suggests it can be utilized to study generalization as well.
- Abstract(参考訳): 勾配に基づくアルゴリズムによって最適化された場合、トレーニングデータを正しく適合させるディープニューラルネットワークの顕著な能力は、まだ完全には理解されていない。
近年の理論的結果は、実際に使用されるものよりも桁違いに広いReLUネットワークの収束を説明する。
本研究では,ネットワーク幅と収束時間の両方の既知の理論境界を大幅に改善することにより,理論と実践のギャップを埋めるための一歩を踏み出した。
また,全球最小値への収束は,サンプルサイズが2次で深さが線形なネットワークに対して保証されることを示した。
解析および収束境界は、任意のタイミングで適切な大きさのReLUネットワークに変換可能な、一定の活性化パターンを持つ代理ネットワークの構築によって導出される。
この構造はトレーニングを加速する新しい手法と見なすことができるが、ニューラルタンジェントカーネル(NTK)に対する有限幅同値性は、一般化の研究にも利用できることを示唆している。
関連論文リスト
- Convergence Analysis for Learning Orthonormal Deep Linear Neural
Networks [27.29463801531576]
本稿では,正規直交深部線形ニューラルネットワークの学習のための収束解析について述べる。
その結果、隠れた層の増加が収束速度にどのように影響するかが明らかになった。
論文 参考訳(メタデータ) (2023-11-24T18:46:54Z) - Feature Learning and Generalization in Deep Networks with Orthogonal
Weights [2.0180882714261568]
独立なガウス分布からの数値的な重みを持つディープニューラルネットワークは臨界に調整することができる。
これらのネットワークは、ネットワークの深さと線形に成長するゆらぎを示しており、深さに匹敵する幅のネットワークのトレーニングを損なう可能性がある。
行列のアンサンブルから得られるタンの活性化と重みを持つ長方形のネットワークは、深さによらず、逆幅の先頭の順に、対応する事前活性化変動を持つことを示す。
論文 参考訳(メタデータ) (2023-10-11T18:00:02Z) - On the Disconnect Between Theory and Practice of Overparametrized Neural
Networks [10.96191347868635]
ニューラルネットワーク(NN)の無限幅限界は、大規模で過度にパラメータ化されたネットワークの振る舞いを分析する理論的枠組みとして重要な注目を集めている。
本研究では,この制限機構が実際に使用される大型アーキテクチャの挙動を記述しているか,アルゴリズムの改良に有用かを検討する。
論文 参考訳(メタデータ) (2023-09-29T20:51:24Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - The edge of chaos: quantum field theory and deep neural networks [0.0]
我々は、ディープニューラルネットワークの一般クラスに対応する量子場理論を明示的に構築する。
我々は、深さ$T$と幅$N$との比の摂動展開において、相関関数に対するループ補正を計算する。
我々の分析は、急速に出現するNN-QFT対応に対する第一原理のアプローチを提供し、ディープニューラルネットワークの臨界性の研究にいくつかの興味深い道を開く。
論文 参考訳(メタデータ) (2021-09-27T18:00:00Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。