論文の概要: On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems
- arxiv url: http://arxiv.org/abs/2202.12262v1
- Date: Wed, 23 Feb 2022 14:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:09:43.555998
- Title: On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems
- Title(参考訳): ニューラルネットワークトレーニング問題におけるスプリアス局所ミニマの存在について
- Authors: Constantin Christof and Julia Kowalczyk
- Abstract要約: 本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
本論文は,局所最小値が勾配解アルゴリズムの収束挙動に実際に影響を及ぼすことを示す数値実験で締めくくっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the loss landscape of training problems for deep artificial neural
networks with a one-dimensional real output whose activation functions contain
an affine segment and whose hidden layers have width at least two. It is shown
that such problems possess a continuum of spurious (i.e., not globally optimal)
local minima for all target functions that are not affine. In contrast to
previous works, our analysis covers all sampling and parameterization regimes,
general differentiable loss functions, arbitrary continuous nonpolynomial
activation functions, and both the finite- and infinite-dimensional setting. It
is further shown that the appearance of the spurious local minima in the
considered training problems is a direct consequence of the universal
approximation theorem and that the underlying mechanisms also cause, e.g.,
Lp-best approximation problems to be ill-posed in the sense of Hadamard for all
networks that do not have a dense image. The latter result also holds without
the assumption of local affine linearity and without any conditions on the
hidden layers. The paper concludes with a numerical experiment which
demonstrates that spurious local minima can indeed affect the convergence
behavior of gradient-based solution algorithms in practice.
- Abstract(参考訳): 本研究では,アフィンセグメントを含む活性化関数を持つ1次元実出力と,少なくとも2層以上の隠れ層を有する深層ニューラルネットワークの学習問題のロスランドスケープについて検討する。
このような問題は、アフィンでないすべての対象関数に対して、スプリアス局所極小(すなわち、グローバルに最適ではない)の連続体を持つことが示されている。
従来の研究とは対照的に,全てのサンプリングおよびパラメータ化レジーム,一般微分可能損失関数,任意の連続的非多項活性化関数,および有限次元および無限次元の設定について解析を行った。
さらに, 学習問題におけるスプリアス局所極小の出現は, 普遍近似定理の直接的な帰結であり, また, lp-best近似問題も, 密像を持たないすべてのネットワークに対して, ハダマールの意味で不適切であることを示す。
後者の結果は局所アフィン線型性の仮定も無く、隠れた層上の条件も持たない。
本論文は,局所最小値が実際に勾配解アルゴリズムの収束挙動に実際に影響を及ぼすことを示す数値実験で締めくくっている。
関連論文リスト
- Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Neural Collapse with Normalized Features: A Geometric Analysis over the
Riemannian Manifold [30.3185037354742]
分類タスクのための正規化されたディープネットワーク上でのトレーニングでは、学習された特徴はいわゆる「神経崩壊」現象を示す。
特徴正規化により、より良い表現をより早く学習できることが示される。
論文 参考訳(メタデータ) (2022-09-19T17:26:32Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - The loss landscape of deep linear neural networks: a second-order analysis [9.85879905918703]
正方形損失を伴う深部線形ニューラルネットワークの最適化環境について検討する。
我々は、すべての臨界点の中で、大域最小化点、厳格なサドル点、非制限サドル点を特徴づける。
論文 参考訳(メタデータ) (2021-07-28T11:33:18Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Piecewise linear activations substantially shape the loss surfaces of
neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文 参考訳(メタデータ) (2020-03-27T04:59:34Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。