論文の概要: Spurious Local Minima Are Common for Deep Neural Networks with Piecewise
Linear Activations
- arxiv url: http://arxiv.org/abs/2102.13233v1
- Date: Thu, 25 Feb 2021 23:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:49:59.884784
- Title: Spurious Local Minima Are Common for Deep Neural Networks with Piecewise
Linear Activations
- Title(参考訳): Spurious Local Minima is common for Deep Neural Networks with Piecewise Linear Activation
- Authors: Bo Liu
- Abstract要約: スプリアスローカルミニマは、分割線形活性化機能を備えたディープフルコネクテッドネットワークおよびCNNに一般的です。
散発的な局所ミニマの存在理由を説明するために動機づける例が与えられる。
- 参考スコア(独自算出の注目度): 4.758120194113354
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, it is shown theoretically that spurious local minima are
common for deep fully-connected networks and convolutional neural networks
(CNNs) with piecewise linear activation functions and datasets that cannot be
fitted by linear models. A motivating example is given to explain the reason
for the existence of spurious local minima: each output neuron of deep
fully-connected networks and CNNs with piecewise linear activations produces a
continuous piecewise linear (CPWL) output, and different pieces of CPWL output
can fit disjoint groups of data samples when minimizing the empirical risk.
Fitting data samples with different CPWL functions usually results in different
levels of empirical risk, leading to prevalence of spurious local minima. This
result is proved in general settings with any continuous loss function. The
main proof technique is to represent a CPWL function as a maximization over
minimization of linear pieces. Deep ReLU networks are then constructed to
produce these linear pieces and implement maximization and minimization
operations.
- Abstract(参考訳): 本稿では,線形モデルでは適用できない線形活性化関数とデータセットを持つ深層完全連結ネットワークと畳み込みニューラルネットワーク(cnns)において,スプリアス局所最小化が一般的であることを理論的に示す。
親密な局所ミニマの存在理由を説明するための動機付けの例として、分断線形アクティベーションを備えたディープフルコネクテッドネットワークとCNNの各出力ニューロンは連続的なピースワイズ線形(CPWL)出力を生成し、異なるCPWL出力は経験的リスクを最小限に抑えるときに不一致なデータサンプルのグループに適合することができる。
CPWL機能が異なるデータサンプルを適合させると、通常、経験的なリスクの異なるレベルになり、散発的な局所ミニマの流行につながります。
この結果は、任意の連続損失関数で一般的な設定で証明されます。
主な証明手法は、CPWL関数を線形部品の最小化に対する最大化として表現することである。
ディープReLUネットワークは、これらの線形部品を生成し、最大化および最小化操作を実装するために構築される。
関連論文リスト
- Physics-Informed Neural Networks: Minimizing Residual Loss with Wide Networks and Effective Activations [5.731640425517324]
特定の条件下では、広いニューラルネットワークによってPINNの残留損失を世界規模で最小化できることを示す。
良好な高次導関数を持つ活性化関数は、残留損失を最小限に抑える上で重要な役割を果たす。
確立された理論は、PINNの効果的な活性化関数の設計と選択の道を開く。
論文 参考訳(メタデータ) (2024-05-02T19:08:59Z) - Linear Mode Connectivity in Sparse Neural Networks [1.30536490219656]
合成データによるニューラルネットワークのプルーニングが、ユニークなトレーニング特性を持つスパースネットワークにどのように影響するかを考察する。
これらの特性は、蒸留データを適用した設定において、従来のIMPのパフォーマンスを最大150倍のトレーニングポイントで整合させる合成作業に繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-28T17:51:39Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z) - Piecewise linear activations substantially shape the loss surfaces of
neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文 参考訳(メタデータ) (2020-03-27T04:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。