論文の概要: Do Residual Neural Networks discretize Neural Ordinary Differential
Equations?
- arxiv url: http://arxiv.org/abs/2205.14612v1
- Date: Sun, 29 May 2022 09:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 15:31:59.410852
- Title: Do Residual Neural Networks discretize Neural Ordinary Differential
Equations?
- Title(参考訳): 残留ニューラルネットワークはニューラル正規微分方程式を識別するか?
- Authors: Michael E. Sander, Pierre Ablin and Gabriel Peyr\'e
- Abstract要約: まず、ResNetの隠れ状態軌跡と対応するNeural ODEの解との距離を定量化する。
線形残差関数と十分小さい初期損失を持つResNetに対して,この滑らかさは勾配降下によって保たれることを示す。
- 参考スコア(独自算出の注目度): 8.252615417740879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Ordinary Differential Equations (Neural ODEs) are the continuous
analog of Residual Neural Networks (ResNets). We investigate whether the
discrete dynamics defined by a ResNet are close to the continuous one of a
Neural ODE. We first quantify the distance between the ResNet's hidden state
trajectory and the solution of its corresponding Neural ODE. Our bound is tight
and, on the negative side, does not go to 0 with depth N if the residual
functions are not smooth with depth. On the positive side, we show that this
smoothness is preserved by gradient descent for a ResNet with linear residual
functions and small enough initial loss. It ensures an implicit regularization
towards a limit Neural ODE at rate 1 over N, uniformly with depth and
optimization time. As a byproduct of our analysis, we consider the use of a
memory-free discrete adjoint method to train a ResNet by recovering the
activations on the fly through a backward pass of the network, and show that
this method theoretically succeeds at large depth if the residual functions are
Lipschitz with the input. We then show that Heun's method, a second order ODE
integration scheme, allows for better gradient estimation with the adjoint
method when the residual functions are smooth with depth. We experimentally
validate that our adjoint method succeeds at large depth, and that Heun method
needs fewer layers to succeed. We finally use the adjoint method successfully
for fine-tuning very deep ResNets without memory consumption in the residual
layers.
- Abstract(参考訳): 神経常微分方程式(neural ordinary differential equation、neural odes)は、残留ニューラルネットワーク(resnets)の連続アナログである。
本研究では,resnetによって定義される離散ダイナミクスが,神経odeの連続的なダイナミクスに近いかどうかを調べる。
まず、resnetの隠れた状態軌道と対応する神経odeの解との間の距離を定量化する。
我々の境界は厳密であり、負の側では、残関数が深さが滑らかでなければ、深さ N で 0 に近づかない。
正の面から、この滑らかさは線形残留関数と十分小さい初期損失を持つResNetの勾配降下によって保存されることを示す。
N 上 1 の速度で制限されたニューラルODE に対して暗黙の正規化を保証し、深さと最適化時間を均一に行う。
本分析の副産物として,ネットワークの後方通過を介してフライ上のアクティベーションを回復することにより,再ネットを訓練するためにメモリフリーな離散随伴法を用いることを検討し,残余関数が入力のリプシッツである場合,理論的に大深度で成功することを示す。
次に,2次ODE積分法であるHunの手法により,残関数が深さの滑らかな場合の随伴法による勾配推定がより良くなることを示す。
実験により, 随伴法が大深度で成功し, ヒューン法が成功するためにはより少ない層を必要とすることを確認した。
我々は最後に、残層におけるメモリ消費を伴わずに非常に深いResNetを微調整するために、adjointメソッドをうまく利用した。
関連論文リスト
- Implicit regularization of deep residual networks towards neural ODEs [8.075122862553359]
我々は、ニューラルネットワークに対する深い残留ネットワークの暗黙的な正規化を確立する。
ネットワークがニューラルなODEの離散化であるなら、そのような離散化はトレーニングを通して維持される。
論文 参考訳(メタデータ) (2023-09-03T16:35:59Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Learning via nonlinear conjugate gradients and depth-varying neural ODEs [5.565364597145568]
ニューラル常微分方程式(NODE)における深度可変パラメータの教師付き再構成の逆問題について考察する。
提案したパラメータ再構成は,コスト関数の最小化による一般一階微分方程式に対して行われる。
感度問題は、トレーニングされたパラメータの摂動下でのネットワーク出力の変化を推定することができる。
論文 参考訳(メタデータ) (2022-02-11T17:00:48Z) - On the Global Convergence of Gradient Descent for multi-layer ResNets in
the mean-field regime [19.45069138853531]
一階法は、グローバル化された体制におけるグローバルな最適性を見出す。
ResNetが十分に大きく、精度と信頼度に応じて深さ幅がある場合、一階法はデータに適合する最適化を見つけることができる。
論文 参考訳(メタデータ) (2021-10-06T17:16:09Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。
その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。
しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文 参考訳(メタデータ) (2020-01-28T16:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。