論文の概要: Piecewise linear activations substantially shape the loss surfaces of
neural networks
- arxiv url: http://arxiv.org/abs/2003.12236v1
- Date: Fri, 27 Mar 2020 04:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 04:36:33.358841
- Title: Piecewise linear activations substantially shape the loss surfaces of
neural networks
- Title(参考訳): ニューラルネットワークの損失面を実質的に形作る線形活性化
- Authors: Fengxiang He, Bohan Wang, Dacheng Tao
- Abstract要約: 本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。
一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
- 参考スコア(独自算出の注目度): 95.73230376153872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the loss surface of a neural network is fundamentally important
to the understanding of deep learning. This paper presents how piecewise linear
activation functions substantially shape the loss surfaces of neural networks.
We first prove that {\it the loss surfaces of many neural networks have
infinite spurious local minima} which are defined as the local minima with
higher empirical risks than the global minima. Our result demonstrates that the
networks with piecewise linear activations possess substantial differences to
the well-studied linear neural networks. This result holds for any neural
network with arbitrary depth and arbitrary piecewise linear activation
functions (excluding linear functions) under most loss functions in practice.
Essentially, the underlying assumptions are consistent with most practical
circumstances where the output layer is narrower than any hidden layer. In
addition, the loss surface of a neural network with piecewise linear
activations is partitioned into multiple smooth and multilinear cells by
nondifferentiable boundaries. The constructed spurious local minima are
concentrated in one cell as a valley: they are connected with each other by a
continuous path, on which empirical risk is invariant. Further for
one-hidden-layer networks, we prove that all local minima in a cell constitute
an equivalence class; they are concentrated in a valley; and they are all
global minima in the cell.
- Abstract(参考訳): ニューラルネットワークの損失面を理解することは、ディープラーニングを理解する上で根本的に重要である。
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。
まず、多くのニューラルネットワークの損失面が無限に緩やかな局所ミニマを持つことを証明し、これは大域的ミニマよりも経験的リスクの高い局所ミニマとして定義される。
その結果,線形活性化を区分的に有するネットワークは,よく研究された線形ニューラルネットワークと大きく異なることがわかった。
この結果は、任意の深さと任意の線形活性化関数(線形関数を除く)を持つ任意のニューラルネットワークを、実際にほとんどの損失関数の下で保持する。
基本的に、基礎となる前提は、どの隠れた層よりも出力層が狭い、最も実用的な状況と一致する。
さらに、分割線形活性化を有するニューラルネットワークの損失面を、微分不能な境界によって複数の滑らかで多線形な細胞に分割する。
構築されたスプリアス局所的ミニマは、谷として一つのセルに集中しており、それらは、経験的リスクが不変である連続した経路によって相互に接続されている。
さらに, 単層ネットワークでは, セル内のすべての局所ミニマが等価クラスであり, 谷に集中しており, セル内のすべてのグローバルミニマであることを示す。
関連論文リスト
- Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。
単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。
これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文 参考訳(メタデータ) (2023-07-20T13:34:11Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Rank Diminishing in Deep Neural Networks [71.03777954670323]
ニューラルネットワークのランクは、層をまたがる情報を測定する。
これは機械学習の幅広い領域にまたがる重要な構造条件の例である。
しかし、ニューラルネットワークでは、低ランク構造を生み出す固有のメカニズムはあいまいで不明瞭である。
論文 参考訳(メタデータ) (2022-06-13T12:03:32Z) - On the Omnipresence of Spurious Local Minima in Certain Neural Network
Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。
このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文 参考訳(メタデータ) (2022-02-23T14:41:54Z) - Exact Solutions of a Deep Linear Network [2.2344764434954256]
この研究は、重み減衰とニューロンを持つディープ線形ネットワークの大域的ミニマを解析的に表現することを発見した。
重み減衰はモデルアーキテクチャと強く相互作用し、1ドル以上の隠蔽層を持つネットワークにおいてゼロで悪いミニマを生成できることを示す。
論文 参考訳(メタデータ) (2022-02-10T00:13:34Z) - Spurious Local Minima Are Common for Deep Neural Networks with Piecewise
Linear Activations [4.758120194113354]
スプリアスローカルミニマは、分割線形活性化機能を備えたディープフルコネクテッドネットワークおよびCNNに一般的です。
散発的な局所ミニマの存在理由を説明するために動機づける例が与えられる。
論文 参考訳(メタデータ) (2021-02-25T23:51:14Z) - The Connection Between Approximation, Depth Separation and Learnability
in Neural Networks [70.55686685872008]
学習可能性と近似能力の関係について検討する。
対象関数の深いネットワークでの学習性は、より単純なクラスがターゲットを近似する能力に依存することを示す。
論文 参考訳(メタデータ) (2021-01-31T11:32:30Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Over-parametrized neural networks as under-determined linear systems [31.69089186688224]
単純なニューラルネットワークがトレーニング損失をゼロにできるのは当然のことだ。
ReLUアクティベーション関数に典型的に関連付けられたカーネルには、根本的な欠陥があることが示される。
本稿では,ReLUの落とし穴を避けるための新たなアクティベーション関数を提案する。
論文 参考訳(メタデータ) (2020-10-29T21:43:00Z) - Avoiding Spurious Local Minima in Deep Quadratic Networks [0.0]
ニューラルアクティベーション機能を持つネットワークにおける平均2乗非線形誤差の景観を特徴付ける。
2次アクティベーションを持つ深層ニューラルネットワークは、類似した景観特性の恩恵を受けることが証明された。
論文 参考訳(メタデータ) (2019-12-31T22:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。