論文の概要: Scaling ResNets in the Large-depth Regime
- arxiv url: http://arxiv.org/abs/2206.06929v1
- Date: Tue, 14 Jun 2022 15:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:14:02.282290
- Title: Scaling ResNets in the Large-depth Regime
- Title(参考訳): 大規模レジームにおけるResNetのスケーリング
- Authors: Pierre Marion, Adeline Fermanian, G\'erard Biau, Jean-Philippe Vert
- Abstract要約: Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。
これらのアーキテクチャの顕著なパフォーマンスは、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存しています。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は、各レイヤの出力を$alpha_L$でスケーリングすることである。
- 参考スコア(独自算出の注目度): 8.889304968879163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep ResNets are recognized for achieving state-of-the-art results in complex
machine learning tasks. However, the remarkable performance of these
architectures relies on a training procedure that needs to be carefully crafted
to avoid vanishing or exploding gradients, particularly as the depth $L$
increases. No consensus has been reached on how to mitigate this issue,
although a widely discussed strategy consists in scaling the output of each
layer by a factor $\alpha_L$. We show in a probabilistic setting that with
standard i.i.d. initializations, the only non-trivial dynamics is for $\alpha_L
= 1/\sqrt{L}$ (other choices lead either to explosion or to identity mapping).
This scaling factor corresponds in the continuous-time limit to a neural
stochastic differential equation, contrarily to a widespread interpretation
that deep ResNets are discretizations of neural ordinary differential
equations. By contrast, in the latter regime, stability is obtained with
specific correlated initializations and $\alpha_L = 1/L$. Our analysis suggests
a strong interplay between scaling and regularity of the weights as a function
of the layer index. Finally, in a series of experiments, we exhibit a
continuous range of regimes driven by these two parameters, which jointly
impact performance before and after training.
- Abstract(参考訳): Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。
しかしながら、これらのアーキテクチャの顕著なパフォーマンスは、特に深度$L$が増加するにつれて、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。
この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は各レイヤの出力を$\alpha_L$でスケーリングすることである。
確率的設定では、標準 i.d. 初期化の場合、唯一の非自明な力学は$\alpha_L = 1/\sqrt{L}$である(他の選択は爆発やアイデンティティマッピングにつながる)。
このスケーリング係数は、ニューラル・確率微分方程式の連続時間限界に対応し、ディープ・レスネットがニューラル・常微分方程式の離散化であるという広い解釈に反する。
対照的に、後者のレジームでは、安定性は特定の相関初期化と$\alpha_l = 1/l$で得られる。
分析の結果,重みのスケーリングと規則性の間には,層指数の関数としての強い相互作用が示唆された。
最後に,一連の実験において,これら2つのパラメータによって駆動される連続的なレジームを示し,トレーニング前後のパフォーマンスに共同で影響することを示した。
関連論文リスト
- Differential Equation Scaling Limits of Shaped and Unshaped Neural
Networks [10.297878672883973]
類似した微分方程式に基づく2種類の不整形ネットワークのキャラクタリゼーションを求める。
我々は第1次補正を階層的相関に導出する。
これらの結果は、形状と未形状のネットワークアーキテクチャ間の接続を提供する。
論文 参考訳(メタデータ) (2023-10-18T16:15:10Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Hidden Progress in Deep Learning: SGD Learns Parities Near the
Computational Limit [36.17720004582283]
この研究は、$k$sparseパリティを$n$bitsで学習するレンズを通してそのような探索を行う。
データセットのサイズと実行時間をスケールアップする際、ニューラルネットワークは驚くほどの位相遷移を示す。
論文 参考訳(メタデータ) (2022-07-18T17:55:05Z) - Correlation Functions in Random Fully Connected Neural Networks at
Finite Width [17.51364577113718]
この記事では、ガウスのランダムな重みとバイアスと$L$の隠蔽層を持つ完全に接続されたニューラルネットワークについて考察する。
有界非線形性に対しては、ネットワーク出力とその導関数の共役相関関数に対して1/n$の急激な再帰推定を与える。
いずれの場合も、深さと幅の比$L/n$は、個々のニューロンのゆらぎのスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。
論文 参考訳(メタデータ) (2022-04-03T11:57:18Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。