論文の概要: Asymptotic Analysis of Deep Residual Networks
- arxiv url: http://arxiv.org/abs/2212.08199v1
- Date: Thu, 15 Dec 2022 23:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:56:40.430316
- Title: Asymptotic Analysis of Deep Residual Networks
- Title(参考訳): 深層残留ネットワークの漸近解析
- Authors: Rama Cont, Alain Rossier, and Renyuan Xu
- Abstract要約: 層数の増加に伴い, ディープResidual Network(ResNets)の特性について検討する。
まず、トレーニングされた重量に対するスケーリングレギュレーションの存在を、ニューラルODEの文献で暗黙的に仮定されているものとは大きく異なることを示す。
これらのスケーリングレシエーションにおける隠れ状態のダイナミクスについて検討し、ODE、収束方程式(SDE)、あるいはそれらのいずれかが得られることを示す。
- 参考スコア(独自算出の注目度): 6.308539010172309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the asymptotic properties of deep Residual networks (ResNets)
as the number of layers increases. We first show the existence of scaling
regimes for trained weights markedly different from those implicitly assumed in
the neural ODE literature. We study the convergence of the hidden state
dynamics in these scaling regimes, showing that one may obtain an ODE, a
stochastic differential equation (SDE) or neither of these. In particular, our
findings point to the existence of a diffusive regime in which the deep network
limit is described by a class of stochastic differential equations (SDEs).
Finally, we derive the corresponding scaling limits for the backpropagation
dynamics.
- Abstract(参考訳): 層数が増加するにつれて, 深層残留ネットワーク(ResNets)の漸近特性について検討する。
まず,学習重みに対するスケーリングレジームの存在を,神経odeの文献で暗黙的に想定されているものと大きく異なることを示した。
これらのスケーリングレシエーションにおける隠れ状態ダイナミクスの収束について検討し、ODE、確率微分方程式(SDE)、あるいはそれらのいずれかが得られることを示した。
特に,より深いネットワーク限界が確率微分方程式(SDE)のクラスによって記述される拡散状態の存在が示唆された。
最後に、バックプロパゲーションダイナミクスのスケーリング限界を導出する。
関連論文リスト
- Advancing Generalization in PINNs through Latent-Space Representations [71.86401914779019]
物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)によって支配される力学系のモデリングにおいて大きな進歩を遂げた。
本稿では,多種多様なPDE構成を効果的に一般化する物理インフォームドニューラルPDE解法PIDOを提案する。
PIDOは1次元合成方程式と2次元ナビエ・ストークス方程式を含む様々なベンチマークで検証する。
論文 参考訳(メタデータ) (2024-11-28T13:16:20Z) - Theory on variational high-dimensional tensor networks [2.0307382542339485]
ランダムな高次元ネットワーク状態の創発的統計特性とテンソルネットワークのトレーニング可能性について検討する。
変動高次元ネットワークが大域的損失関数のバレンプラトーに悩まされていることを証明した。
この結果は、将来の理論的研究と実践的応用の道を開くものである。
論文 参考訳(メタデータ) (2023-03-30T15:26:30Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - From high-dimensional & mean-field dynamics to dimensionless ODEs: A
unifying approach to SGD in two-layers networks [26.65398696336828]
本書はガウスデータとラベルに基づいて訓練された2層ニューラルネットワークの1パス勾配降下(SGD)ダイナミクスについて検討する。
我々は、人口リスクに関する十分な統計量の観点から、決定論的かつ低次元の記述を通じて、制限力学を厳格に分析する。
論文 参考訳(メタデータ) (2023-02-12T09:50:52Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks [12.355137704908042]
勾配降下型深層ネットワーク(SGD)の現在の訓練実践における抑制的数値不安定性を示す。
我々は、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを分析する。
これはCNNの降下に伴う非線形PDEの結果であり、離散化のステップサイズを過度に運転すると局所線形化が変化し、安定化効果がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-04T14:54:05Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Scaling Properties of Deep Residual Networks [2.6763498831034043]
勾配降下法によりトレーニングした重りの性質と, ネットワーク深度によるスケーリングについて, 数値実験により検討した。
神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。
これらの結果は、ディープResNetの適切な記述として、ニューラルODEモデルの有効性に疑問を投げかけた。
論文 参考訳(メタデータ) (2021-05-25T22:31:30Z) - Quantitative Propagation of Chaos for SGD in Wide Neural Networks [39.35545193410871]
本稿では,SGD(Gradient Descent)の連続時間動作の制限挙動について検討する。
本研究では, この連続時間力学によって定義される粒子系に対して, 異なるシナリオ下での「カオスの伝播」を示す。
最小化問題の暗黙的な正則化版に対応する2つの平均場限界を求める。
論文 参考訳(メタデータ) (2020-07-13T12:55:21Z) - Stochasticity in Neural ODEs: An Empirical Study [68.8204255655161]
ニューラルネットワークの正規化(ドロップアウトなど)は、より高度な一般化を可能にするディープラーニングの広範な技術である。
トレーニング中のデータ拡張は、同じモデルの決定論的およびバージョンの両方のパフォーマンスを向上させることを示す。
しかし、データ拡張によって得られる改善により、経験的正規化の利得は完全に排除され、ニューラルODEとニューラルSDEの性能は無視される。
論文 参考訳(メタデータ) (2020-02-22T22:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。