論文の概要: On Connectivity of Solutions in Deep Learning: The Role of
Over-parameterization and Feature Quality
- arxiv url: http://arxiv.org/abs/2102.09671v1
- Date: Thu, 18 Feb 2021 23:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:37:05.206004
- Title: On Connectivity of Solutions in Deep Learning: The Role of
Over-parameterization and Feature Quality
- Title(参考訳): 深層学習における解の接続性について:過度パラメータ化と特徴品質の役割
- Authors: Quynh Nguyen, Pierre Brechet, Marco Mondelli
- Abstract要約: パラメータ空間における2つの任意の点の接続を保証するための新しい条件を提案する。
この条件はドロップアウトの安定性よりも明らかに穏やかであり、低損失経路の発見問題とニューラルネットワークの記憶能力との関係を提供する。
- 参考スコア(独自算出の注目度): 21.13299067136635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It has been empirically observed that, in deep neural networks, the solutions
found by stochastic gradient descent from different random initializations can
be often connected by a path with low loss. Recent works have shed light on
this intriguing phenomenon by assuming either the over-parameterization of the
network or the dropout stability of the solutions. In this paper, we reconcile
these two views and present a novel condition for ensuring the connectivity of
two arbitrary points in parameter space. This condition is provably milder than
dropout stability, and it provides a connection between the problem of finding
low-loss paths and the memorization capacity of neural nets. This last point
brings about a trade-off between the quality of features at each layer and the
over-parameterization of the network. As an extreme example of this trade-off,
we show that (i) if subsets of features at each layer are linearly separable,
then almost no over-parameterization is needed, and (ii) under generic
assumptions on the features at each layer, it suffices that the last two hidden
layers have $\Omega(\sqrt{N})$ neurons, $N$ being the number of samples.
Finally, we provide experimental evidence demonstrating that the presented
condition is satisfied in practical settings even when dropout stability does
not hold.
- Abstract(参考訳): 深いニューラルネットワークでは、異なるランダム初期化からの確率勾配降下によって発見された解は、しばしば低損失の経路によって接続されることが実証的に観察されている。
最近の研究は、ネットワークの過度パラメータ化またはソリューションのドロップアウト安定性を仮定することによって、この興味深い現象に光を当てています。
本稿では,これら2つの視点を整理し,パラメータ空間における2つの任意の点の接続性を確保するための新しい条件を提案する。
この条件はドロップアウトの安定性よりも明らかに穏やかであり、低損失経路の発見問題とニューラルネットワークの記憶能力との関係を提供する。
この最後のポイントは、各レイヤの機能品質とネットワークのオーバーパラメータ化の間のトレードオフをもたらします。
このトレードオフの極端な例として、(i) 各層における特徴のサブセットが線形分離可能である場合、ほとんど過パラメータ化は不要であり、(ii)各層における特徴の一般的な仮定の下では、最後の2つの隠れた層が$\Omega(\sqrt{N})$ニューロンを持ち、$N$は標本数であることを示す。
最後に, 落下安定性が保持されない場合でも, 実用的条件で条件が満たされることを実証する実験的な証拠を提供する。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - The Implicit Bias of Minima Stability in Multivariate Shallow ReLU
Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。
我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文 参考訳(メタデータ) (2023-06-30T09:17:39Z) - On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations [0.0]
本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
論文 参考訳(メタデータ) (2023-05-17T02:26:34Z) - Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。
トラクタブル回路において,これを効率的に計算する方法を示す。
我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文 参考訳(メタデータ) (2023-02-28T00:04:22Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。
基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。
所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文 参考訳(メタデータ) (2021-05-30T02:46:09Z) - Bayesian Nested Neural Networks for Uncertainty Calibration and Adaptive
Compression [40.35734017517066]
ネストネットワーク(Nested Network)またはスリムブルネットワーク(Slimmable Network)は、テスト期間中にアーキテクチャを即座に調整できるニューラルネットワークである。
最近の研究は、トレーニング中に重要なレイヤのノードを順序付けできる"ネストされたドロップアウト"層に焦点を当てている。
論文 参考訳(メタデータ) (2021-01-27T12:34:58Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。