論文の概要: A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth
- arxiv url: http://arxiv.org/abs/2003.05508v2
- Date: Thu, 11 Jun 2020 19:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 14:32:11.399446
- Title: A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable
Optimization Via Overparameterization From Depth
- Title(参考訳): 深部ResNetとそれを超える平均場解析:深さからの過度パラメータ化による予測可能な最適化に向けて
- Authors: Yiping Lu, Chao Ma, Yulong Lu, Jianfeng Lu, Lexing Ying
- Abstract要約: 勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。
我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
- 参考スコア(独自算出の注目度): 19.866928507243617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks with stochastic gradient descent (SGD) can
often achieve zero training loss on real-world tasks although the optimization
landscape is known to be highly non-convex. To understand the success of SGD
for training deep neural networks, this work presents a mean-field analysis of
deep residual networks, based on a line of works that interpret the continuum
limit of the deep residual network as an ordinary differential equation when
the network capacity tends to infinity. Specifically, we propose a new
continuum limit of deep residual networks, which enjoys a good landscape in the
sense that every local minimizer is global. This characterization enables us to
derive the first global convergence result for multilayer neural networks in
the mean-field regime. Furthermore, without assuming the convexity of the loss
landscape, our proof relies on a zero-loss assumption at the global minimizer
that can be achieved when the model shares a universal approximation property.
Key to our result is the observation that a deep residual network resembles a
shallow network ensemble, i.e. a two-layer network. We bound the difference
between the shallow network and our ResNet model via the adjoint sensitivity
method, which enables us to apply existing mean-field analyses of two-layer
networks to deep networks. Furthermore, we propose several novel training
schemes based on the new continuous model, including one training procedure
that switches the order of the residual blocks and results in strong empirical
performance on the benchmark datasets.
- Abstract(参考訳): 確率勾配降下(SGD)を持つ深層ニューラルネットワークのトレーニングは、最適化の状況は極めて非凸であることが知られているが、現実のタスクにおいてゼロのトレーニング損失を達成することがしばしばある。
深層ニューラルネットワークの学習におけるsgdの成功を理解するため,本研究は,ネットワーク容量が無限大である場合,深層残留ネットワークの連続限界を常微分方程式として解釈する一連の研究に基づいて,深層残留ネットワークの平均場解析を提案する。
具体的には,すべての局所的最小化器が大域的であるという意味でよい景観を享受する,深層残留ネットワークの新たな連続限界を提案する。
この特徴により、平均場状態における多層ニューラルネットワークに対する第1次大域収束結果の導出が可能となる。
さらに、損失景観の凸性を仮定せずに、この証明は、モデルが普遍近似性を共有するときに達成できる大域的最小値におけるゼロ損失仮定に依存する。
この結果の鍵となるのは、深い残留ネットワークが浅いネットワークアンサンブル、すなわち2層ネットワークに類似していることである。
浅層ネットワークとResNetモデルとの差を随伴感度法により有界化し,既存の2層ネットワークの平均場解析を深層ネットワークに適用する。
さらに,新たな連続モデルに基づく新たなトレーニングスキームを提案する。このトレーニング手順は,残ブロックの順序を切り替えて,ベンチマークデータセットで強い経験的パフォーマンスを実現する。
関連論文リスト
- Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。
この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-14T21:48:00Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - Singular Value Perturbation and Deep Network Optimization [29.204852309828006]
我々は,行列摂動に関する新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響について光を当てる。
特に,ディープラーニング実践者が長年経験してきたことを説明する。深層アーキテクチャのパラメータは,他よりも容易に最適化できる。
摂動結果の直接的な応用は、ResNetがConvNetよりも簡単に最適化できる理由を解析的に説明します。
論文 参考訳(メタデータ) (2022-03-07T02:09:39Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Variational Depth Search in ResNets [2.6763498831034043]
ワンショットのニューラルアーキテクチャサーチにより、ウェイトとネットワークアーキテクチャの合同学習が可能になり、計算コストが削減される。
探索空間を残差ネットワークの深さに制限し、解析的に抽出可能な変分目的を定式化し、1ショットで近似された奥行きの奥行きの偏りを許容する。
MNIST, Fashion-MNIST, SVHNデータセットのネットワーク深度を手動で探索する手法の比較を行った。
論文 参考訳(メタデータ) (2020-02-06T16:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。