論文の概要: Better Depth-Width Trade-offs for Neural Networks through the lens of
Dynamical Systems
- arxiv url: http://arxiv.org/abs/2003.00777v2
- Date: Mon, 20 Jul 2020 10:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:38:33.707584
- Title: Better Depth-Width Trade-offs for Neural Networks through the lens of
Dynamical Systems
- Title(参考訳): 動的システムのレンズによるニューラルネットワークの奥行きトレードオフの改善
- Authors: Vaggos Chatziafratis and Sai Ganesh Nagarajan and Ioannis Panageas
- Abstract要約: 近年, 動的システムとの新たな接続により, ReLU ネットワークの深度分離結果を得た。
既存の幅の低い境界を、いくつかの面で改善する。
我々の結果の副産物は、深さ幅のトレードオフを特徴づける普遍定数が存在することである。
- 参考スコア(独自算出の注目度): 24.229336600210015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expressivity of neural networks as a function of their depth, width and
type of activation units has been an important question in deep learning
theory. Recently, depth separation results for ReLU networks were obtained via
a new connection with dynamical systems, using a generalized notion of fixed
points of a continuous map $f$, called periodic points. In this work, we
strengthen the connection with dynamical systems and we improve the existing
width lower bounds along several aspects. Our first main result is
period-specific width lower bounds that hold under the stronger notion of
$L^1$-approximation error, instead of the weaker classification error. Our
second contribution is that we provide sharper width lower bounds, still
yielding meaningful exponential depth-width separations, in regimes where
previous results wouldn't apply. A byproduct of our results is that there
exists a universal constant characterizing the depth-width trade-offs, as long
as $f$ has odd periods. Technically, our results follow by unveiling a tighter
connection between the following three quantities of a given function: its
period, its Lipschitz constant and the growth rate of the number of
oscillations arising under compositions of the function $f$ with itself.
- Abstract(参考訳): ニューラルネットワークの深度、幅、活性化単位のタイプとしての表現性は、深層学習理論において重要な問題となっている。
近年、連続写像 $f$ の不動点の一般化概念である周期点を用いて、reluネットワークの深さ分離結果が力学系との新たな接続によって得られた。
本研究では,動的システムとの接続を強化し,既存の幅下限をいくつかの面に沿って改善する。
最初の結果は、より弱い分類誤差の代わりに、$L^1$-近似誤差というより強い概念のもとに保持される周期的幅の低い境界である。
第2の貢献は、以前の結果が適用されない状況において、より鋭い幅の低限を提供し、有意義な指数的深さ-幅分離をもたらすことです。
我々の結果の副産物は、f$が奇数の周期を持つ限り、深さ幅のトレードオフを特徴づける普遍定数が存在することである。
理論的には、以下の3種類の関数(周期、リプシッツ定数、それ自身との関数$f$ の合成下で生じる振動数の増加率)の間により密接な関係を明かした。
関連論文リスト
- Hamiltonian Mechanics of Feature Learning: Bottleneck Structure in Leaky ResNets [58.460298576330835]
我々は、ResNets(tildeLtoinfty$)とFully-Connected nets(tildeLtoinfty$)の間を補間するLeaky ResNetsを研究する。
無限深度極限において、'representation geodesics'の$A_p$:continuous paths in representation space(NeuralODEsに類似)を研究する。
この直感を利用して、以前の研究で見られるように、ボトルネック構造の出現を説明する。
論文 参考訳(メタデータ) (2024-05-27T18:15:05Z) - Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning [77.82908213345864]
学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization [5.678271181959529]
層数の関数としてReLUニューラルネットワークへの2つの入力間の角度の進化について検討する。
モンテカルロ実験を用いて理論的結果を検証し, 有限ネットワークの挙動を正確に近似することを示した。
また,深度縮退現象が実際のネットワークのトレーニングに悪影響を及ぼすかを実証的に検討した。
論文 参考訳(メタデータ) (2023-02-20T01:30:27Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Expressivity of Neural Networks via Chaotic Itineraries beyond
Sharkovsky's Theorem [8.492084752803528]
ターゲット関数が$f$であれば、ニューラルネットワークは$f$を近似するためにどのくらいの大きさでなければならないか?
近年の研究では、力学系のレンズから得られる「ニューラルネットワークのテキスト表現性」に関する基本的な問題について検討している。
論文 参考訳(メタデータ) (2021-10-19T22:28:27Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Learning Deep ReLU Networks Is Fixed-Parameter Tractable [21.625005195943707]
ガウス入力に関して未知のReLUネットワークを学習する問題を考察する。
ランニング時間が周囲次元の固定重みとなるアルゴリズムを与える。
我々の境界は、隠れた単位数、深さ、スペクトルノルムのスペクトルノルム、リプシッツ定数に依存する。
論文 参考訳(メタデータ) (2020-09-28T17:58:43Z) - Doubly infinite residual neural networks: a diffusion process approach [8.642603456626393]
ディープResNetは望ましくないフォワードプロパゲーション特性に悩まされないことを示す。
我々は2つの無限完全接続 ResNet に焦点を当て、i.i.d を考える。
我々の結果は、未スケールのネットワークのパラメータが i.d. であり、残余ブロックが浅い場合、ResNetの2倍の表現力に制限があることを示している。
論文 参考訳(メタデータ) (2020-07-07T07:45:34Z) - Depth Enables Long-Term Memory for Recurrent Neural Networks [0.0]
本稿では,スタートエンド分離ランク(Start-End separation rank)と呼ばれる時間的情報フローを支援するネットワークの能力を評価する。
より深い再帰的ネットワークは、浅いネットワークで支えられるものよりも高いスタートエンド分離ランクをサポートすることを証明している。
論文 参考訳(メタデータ) (2020-03-23T10:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。