論文の概要: Ill-Posedness and Optimization Geometry for Nonlinear Neural Network
Training
- arxiv url: http://arxiv.org/abs/2002.02882v1
- Date: Fri, 7 Feb 2020 16:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:32:09.348059
- Title: Ill-Posedness and Optimization Geometry for Nonlinear Neural Network
Training
- Title(参考訳): 非線形ニューラルネットワークトレーニングのためのIll-Posednessと最適化幾何学
- Authors: Thomas O'Leary-Roseberry, Omar Ghattas
- Abstract要約: ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を担っていることを示す。
浅密度ネットワークの場合、非線形活性化関数は大域ミニマ近傍のヘッセンヌル空間を決定する。
これらの結果を高密度ニューラルネットワークに拡張することにより、最終活性化関数が定常点の分類において重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 4.7210697296108926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we analyze the role nonlinear activation functions play at
stationary points of dense neural network training problems. We consider a
generic least squares loss function training formulation. We show that the
nonlinear activation functions used in the network construction play a critical
role in classifying stationary points of the loss landscape. We show that for
shallow dense networks, the nonlinear activation function determines the
Hessian nullspace in the vicinity of global minima (if they exist), and
therefore determines the ill-posedness of the training problem. Furthermore,
for shallow nonlinear networks we show that the zeros of the activation
function and its derivatives can lead to spurious local minima, and discuss
conditions for strict saddle points. We extend these results to deep dense
neural networks, showing that the last activation function plays an important
role in classifying stationary points, due to how it shows up in the gradient
from the chain rule.
- Abstract(参考訳): 本研究では,ニューラルネットワーク学習問題の定常点において非線形活性化関数が果たす役割を解析する。
汎用的最小二乗損失関数トレーニング定式化を考える。
ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を果たすことを示す。
浅密ネットワークでは、非線形活性化関数は大域的ミニマ近傍のヘッセンヌル空間を決定づけ、訓練問題の不適切性を決定する。
さらに, 浅層非線形ネットワークでは, 活性化関数とその導関数の零点が局所的な極小化を引き起こし, 厳密な鞍点の条件を議論できることを示した。
これらの結果を高密度ニューラルネットワークに拡張し、連鎖規則からの勾配に現れるため、最後の活性化関数が定常点の分類において重要な役割を果たすことを示した。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escaping, and Network Embedding [1.4513150969598634]
経験的二乗損失を学習したReLU様活性化関数を持つ一層ニューラルネットワークの損失状況について検討した。
アクティベーション関数は微分不可能であるため、固定点を完全に特徴づける方法は今のところ不明である。
定常点が一階条件で定義される「エスケープニューロン」を含まない場合、局所最小値でなければならないことを示す。
論文 参考訳(メタデータ) (2024-02-08T12:30:29Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Nonlinear Advantage: Trained Networks Might Not Be As Complex as You
Think [0.0]
性能崩壊前の線形性に対するネットワーク機能をいかに単純化できるかを考察する。
訓練後, 高い性能を維持しつつ, かなりの数の非線形ユニットを線形化できることが判明した。
空間的圧力下では、残りの非線形ユニットは異なる構造に整理され、ほぼ一定の有効深さと幅のコアネットを形成する。
論文 参考訳(メタデータ) (2022-11-30T17:24:14Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - Activation function design for deep networks: linearity and effective
initialisation [10.108857371774977]
先行作業で特定された初期化時の2つの問題を回避する方法を検討する。
これらの問題は, 原点付近に十分に大きな線形領域を持つ活性化関数を選択することで, どちらも回避できることを示す。
論文 参考訳(メタデータ) (2021-05-17T11:30:46Z) - Piecewise linear activations substantially shape the loss surfaces of
neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文 参考訳(メタデータ) (2020-03-27T04:59:34Z) - Deep Neural Networks with Trainable Activations and Controlled Lipschitz
Constant [26.22495169129119]
本稿では,深層ニューラルネットワークの活性化関数を学習するための変分フレームワークを提案する。
我々の目的は、リプシッツ定数の上界を制御しながら、ネットワークの容量を増加させることである。
提案手法を標準ReLUネットワークとその変種であるPRELUとLeakyReLUと比較する。
論文 参考訳(メタデータ) (2020-01-17T12:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。