論文の概要: The Effects of Mild Over-parameterization on the Optimization Landscape
of Shallow ReLU Neural Networks
- arxiv url: http://arxiv.org/abs/2006.01005v2
- Date: Fri, 30 Jul 2021 15:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:23:59.689191
- Title: The Effects of Mild Over-parameterization on the Optimization Landscape
of Shallow ReLU Neural Networks
- Title(参考訳): 浅部ReLUニューラルネットワークの最適化景観に及ぼす過パラメータ化の影響
- Authors: Itay Safran, Gilad Yehudai, Ohad Shamir
- Abstract要約: 我々は,教師と学生のネットワークが同じ数のニューロンを持つ場合,その目的がグローバルなミニマを強く囲むことを証明した。
非グロバルなミニマの場合、単一のニューロンだけを追加することで、非グロバルな最小値がサドルポイントとなることが証明される。
- 参考スコア(独自算出の注目度): 36.35321290763711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the effects of mild over-parameterization on the optimization
landscape of a simple ReLU neural network of the form
$\mathbf{x}\mapsto\sum_{i=1}^k\max\{0,\mathbf{w}_i^{\top}\mathbf{x}\}$, in a
well-studied teacher-student setting where the target values are generated by
the same architecture, and when directly optimizing over the population squared
loss with respect to Gaussian inputs. We prove that while the objective is
strongly convex around the global minima when the teacher and student networks
possess the same number of neurons, it is not even \emph{locally convex} after
any amount of over-parameterization. Moreover, related desirable properties
(e.g., one-point strong convexity and the Polyak-{\L}ojasiewicz condition) also
do not hold even locally. On the other hand, we establish that the objective
remains one-point strongly convex in \emph{most} directions (suitably defined),
and show an optimization guarantee under this property. For the non-global
minima, we prove that adding even just a single neuron will turn a non-global
minimum into a saddle point. This holds under some technical conditions which
we validate empirically. These results provide a possible explanation for why
recovering a global minimum becomes significantly easier when we
over-parameterize, even if the amount of over-parameterization is very
moderate.
- Abstract(参考訳): 対象値が同じアーキテクチャによって生成され、ガウスの入力に対して集団二乗損失を直接最適化する場合に、軽度過剰パラメータ化が$\mathbf{x}\mapsto\sum_{i=1}^k\max\{0,\mathbf{w}_i^{\top}\mathbf{x}\}$という単純なreluニューラルネットワークの最適化景観に与える影響について検討した。
教師と学生のネットワークが同じ数のニューロンを持つ場合、その目的が大域的ミニマの周りに強く凸していることは証明するが、過度なパラメータ化の後では、emph{locally convex}でさえない。
さらに、関連する望ましい性質(例えば、一点強凸性やポリak-{\l}ojasiewicz条件)も局所的にも保持されない。
一方、目的が(好ましくは定義された) \emph{most} 方向において一点の凸を保ち、この性質の下で最適化の保証を示す。
非グロバルなミニマの場合、単一のニューロンを追加するだけで、非グロバルな最小値がサドルポイントになることを示す。
これは、経験的に検証するいくつかの技術的な条件の下で行われます。
これらの結果は、過小パラメータの量が非常に中程度であっても、過小パラメータの回復がはるかに容易になる理由を説明できる。
関連論文リスト
- Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes [29.466981306355066]
固定学習率$eta$の勾配降下はスムーズな関数を表す局所最小値しか見つからないことを示す。
また、$n$のデータポイントのサポートの厳密な内部で、$widetildeO(n-4/5)$のほぼ最適MSE境界を証明します。
論文 参考訳(メタデータ) (2024-06-10T22:57:27Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Over-Parameterization Exponentially Slows Down Gradient Descent for
Learning a Single Neuron [49.45105570960104]
ランダム勾配降下のグローバル収束を$Oleft(T-3right)$ rateで証明する。
これら2つの境界は、収束率の正確な特徴づけを与える。
このポテンシャル関数は緩やかに収束し、損失関数の緩やかな収束率を示す。
論文 参考訳(メタデータ) (2023-02-20T15:33:26Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - On the Optimization Landscape of Neural Collapse under MSE Loss: Global
Optimality with Unconstrained Features [38.05002597295796]
簡易等角密閉フレーム(ETF)の頂点に崩壊する崩壊層
興味深い経験的現象が、タスクのためのディープニューラルネットワークの最後の層と特徴で広く観測されている。
論文 参考訳(メタデータ) (2022-03-02T17:00:18Z) - The loss landscape of deep linear neural networks: a second-order analysis [9.85879905918703]
正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
論文 参考訳(メタデータ) (2021-07-28T11:33:18Z) - Which Minimizer Does My Neural Network Converge To? [5.575448433529451]
標準NNトレーニング手順の一般的な変種が、取得した最小化器をどのように変更するかを説明する。
AdaGradのような適応最適化では、得られた最小化器は一般に勾配降下(GD)最小化器と異なる。
この適応型最小化器は、非適応型の場合、GDとGDが本質的に同じ最小化器となるにもかかわらず、ミニバッチトレーニングによりさらに変更される。
論文 参考訳(メタデータ) (2020-11-04T17:04:01Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。