論文の概要: On Sparsity in Overparametrised Shallow ReLU Networks
- arxiv url: http://arxiv.org/abs/2006.10225v1
- Date: Thu, 18 Jun 2020 01:35:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 10:08:37.883280
- Title: On Sparsity in Overparametrised Shallow ReLU Networks
- Title(参考訳): 過パラメータShallow ReLUネットワークにおけるスポーサリティについて
- Authors: Jaume de Dios and Joan Bruna
- Abstract要約: 無限に広い状態であっても、限られた数のニューロンしか必要としない解を捉えるための異なる正規化戦略の能力について検討する。
オーバーパラメトリゼーションの量に関係なく、両方のスキームは、有限個のニューロンしか持たない関数によって最小化される。
- 参考スコア(独自算出の注目度): 42.33056643582297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analysis of neural network training beyond their linearization regime
remains an outstanding open question, even in the simplest setup of a single
hidden-layer. The limit of infinitely wide networks provides an appealing route
forward through the mean-field perspective, but a key challenge is to bring
learning guarantees back to the finite-neuron setting, where practical
algorithms operate.
Towards closing this gap, and focusing on shallow neural networks, in this
work we study the ability of different regularisation strategies to capture
solutions requiring only a finite amount of neurons, even on the infinitely
wide regime. Specifically, we consider (i) a form of implicit regularisation
obtained by injecting noise into training targets [Blanc et al.~19], and (ii)
the variation-norm regularisation [Bach~17], compatible with the mean-field
scaling. Under mild assumptions on the activation function (satisfied for
instance with ReLUs), we establish that both schemes are minimised by functions
having only a finite number of neurons, irrespective of the amount of
overparametrisation. We study the consequences of such property and describe
the settings where one form of regularisation is favorable over the other.
- Abstract(参考訳): ニューラルネットワークのトレーニングを線形化の体制を超えて分析することは、単一の隠れレイヤーの最も単純なセットアップであっても、未解決の問題である。
無限に広いネットワークの限界は平均場の観点から魅力的な経路を提供するが、重要な課題は、実用的なアルゴリズムが動作する有限ニューロン設定に学習保証を戻すことである。
このギャップを埋め、浅いニューラルネットワークに焦点をあてて、この研究では、無限に広い状態であっても、有限のニューロンしか必要としないソリューションを捉えるための様々な正規化戦略の能力について研究する。
特に私たちは
(i)訓練対象に騒音を注入して得られる暗黙の正則化の一形態 [blanc et al.~19]
(II)平均場スケーリングと互換性のある変動ノルム正規化[Bach~17]。
アクティベーション関数(例えば ReLU に満足)の軽度な仮定の下では、両方のスキームは、過パラメトリゼーションの量に関係なく、有限個のニューロンしか持たない関数によって最小化される。
このような特性の結果について検討し、一方の形式が他方よりも好ましい設定について述べる。
関連論文リスト
- Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer
Neural Networks [49.870593940818715]
本稿では,第1層がランダムで固定された3層NNモデルの無限幅限界について検討する。
我々の理論はモデルの異なるスケーリング選択に対応しており、結果としてMF制限の2つの条件が顕著な振舞いを示す。
論文 参考訳(メタデータ) (2022-10-28T17:26:27Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Deep Neural Networks with Trainable Activations and Controlled Lipschitz
Constant [26.22495169129119]
本稿では,深層ニューラルネットワークの活性化関数を学習するための変分フレームワークを提案する。
我々の目的は、リプシッツ定数の上界を制御しながら、ネットワークの容量を増加させることである。
提案手法を標準ReLUネットワークとその変種であるPRELUとLeakyReLUと比較する。
論文 参考訳(メタデータ) (2020-01-17T12:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。