論文の概要: Scaling Properties of Deep Residual Networks
- arxiv url: http://arxiv.org/abs/2105.12245v1
- Date: Tue, 25 May 2021 22:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 13:33:50.899627
- Title: Scaling Properties of Deep Residual Networks
- Title(参考訳): 深層残留ネットワークのスケーリング特性
- Authors: Alain-Sam Cohen, Rama Cont, Alain Rossier, Renyuan Xu
- Abstract要約: 勾配降下法によりトレーニングした重りの性質と, ネットワーク深度によるスケーリングについて, 数値実験により検討した。
神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。
これらの結果は、ディープResNetの適切な記述として、ニューラルODEモデルの有効性に疑問を投げかけた。
- 参考スコア(独自算出の注目度): 2.6763498831034043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Residual networks (ResNets) have displayed impressive results in pattern
recognition and, recently, have garnered considerable theoretical interest due
to a perceived link with neural ordinary differential equations (neural ODEs).
This link relies on the convergence of network weights to a smooth function as
the number of layers increases. We investigate the properties of weights
trained by stochastic gradient descent and their scaling with network depth
through detailed numerical experiments. We observe the existence of scaling
regimes markedly different from those assumed in neural ODE literature.
Depending on certain features of the network architecture, such as the
smoothness of the activation function, one may obtain an alternative ODE limit,
a stochastic differential equation or neither of these. These findings cast
doubts on the validity of the neural ODE model as an adequate asymptotic
description of deep ResNets and point to an alternative class of differential
equations as a better description of the deep network limit.
- Abstract(参考訳): 残差ネットワーク(resnets)はパターン認識において印象的な結果を示しており、近年では神経常微分方程式(neural odes)との関連が認識され、理論上の関心を集めている。
このリンクは、層数の増加に伴うネットワーク重みの滑らかな関数への収束に依存する。
確率勾配降下法で訓練された重みの物性とネットワーク深度によるスケーリングについて, 詳細な数値実験により検討した。
神経ODE文学で想定されるものとは大きく異なるスケーリング体制の存在を観察する。
活性化関数の滑らかさのようなネットワークアーキテクチャの特定の特徴により、代替のODE極限、確率微分方程式、あるいはこれらのいずれかを得ることができる。
これらの結果は、ディープResNetの漸近的記述としてのニューラルODEモデルの妥当性に疑問を呈し、ディープネットワーク限界のより良い記述として別の微分方程式のクラスを指し示している。
関連論文リスト
- Robust Weight Initialization for Tanh Neural Networks with Fixed Point Analysis [5.016205338484259]
提案手法は既存手法よりもネットワークサイズの変化に頑健である。
物理インフォームドニューラルネットワークに適用すると、ネットワークサイズの変化に対するより高速な収束とロバスト性を示す。
論文 参考訳(メタデータ) (2024-10-03T06:30:27Z) - Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Asymptotic Analysis of Deep Residual Networks [6.308539010172309]
層数の増加に伴い, ディープResidual Network(ResNets)の特性について検討する。
まず、トレーニングされた重量に対するスケーリングレギュレーションの存在を、ニューラルODEの文献で暗黙的に仮定されているものとは大きく異なることを示す。
これらのスケーリングレシエーションにおける隠れ状態のダイナミクスについて検討し、ODE、収束方程式(SDE)、あるいはそれらのいずれかが得られることを示す。
論文 参考訳(メタデータ) (2022-12-15T23:55:01Z) - Momentum Diminishes the Effect of Spectral Bias in Physics-Informed
Neural Networks [72.09574528342732]
物理インフォームドニューラルネットワーク(PINN)アルゴリズムは、偏微分方程式(PDE)を含む幅広い問題を解く上で有望な結果を示している。
彼らはしばしば、スペクトルバイアスと呼ばれる現象のために、ターゲット関数が高周波の特徴を含むとき、望ましい解に収束しない。
本研究は, 運動量による勾配降下下で進化するPINNのトレーニングダイナミクスを, NTK(Neural Tangent kernel)を用いて研究するものである。
論文 参考訳(メタデータ) (2022-06-29T19:03:10Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - On the eigenvector bias of Fourier feature networks: From regression to
solving multi-scale PDEs with physics-informed neural networks [0.0]
ニューラルネットワーク(PINN)は、目標関数を近似する場合には、高周波またはマルチスケールの特徴を示す。
マルチスケールなランダムな観測機能を備えた新しいアーキテクチャを構築し、そのような座標埋め込み層が堅牢で正確なPINNモデルにどのように結びつくかを正当化します。
論文 参考訳(メタデータ) (2020-12-18T04:19:30Z) - Delay Differential Neural Networks [0.2538209532048866]
遅延微分方程式 (DDE) に触発された新しいモデル, 遅延微分ニューラルネットワーク (DDNN) を提案する。
ddnnのトレーニングには,ネットワーク上での勾配計算とバックプロパゲーションを行うためのメモリ効率の良い随伴法を提案する。
Cifar10やCifar100のような合成および実世界の画像分類データセットで行った実験は、提案モデルの有効性を示した。
論文 参考訳(メタデータ) (2020-12-12T12:20:54Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Mean-Field and Kinetic Descriptions of Neural Differential Equations [0.0]
この研究では、ニューラルネットワークの特定のクラス、すなわち残留ニューラルネットワークに焦点を当てる。
我々は、ネットワークのパラメータ、すなわち重みとバイアスに関する定常状態と感度を分析する。
残留ニューラルネットワークにインスパイアされた微視的ダイナミクスの修正は、ネットワークのフォッカー・プランクの定式化につながる。
論文 参考訳(メタデータ) (2020-01-07T13:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。