論文の概要: Is the Skip Connection Provable to Reform the Neural Network Loss
Landscape?
- arxiv url: http://arxiv.org/abs/2006.05939v1
- Date: Wed, 10 Jun 2020 16:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:38:14.187294
- Title: Is the Skip Connection Provable to Reform the Neural Network Loss
Landscape?
- Title(参考訳): スキップ接続は、ニューラルネットワークの損失の状況を変えることができるか?
- Authors: Lifu Wang, Bo Shen, Ning Zhao, Zhiyuan Zhang
- Abstract要約: 残余ネットワークは、現在、ディープラーニングにおいて最も効果的な構造の1つである。
スキップ接続が学習能力を向上させるかどうかは不明である。
これらのローカルミニマの深さは最大$O(meta-1)/n)$であり、$n$は入力、$eta1$である。
これは、ディープラーニングにおけるスキップ接続の有効性に関する理論的説明を提供する。
- 参考スコア(独自算出の注目度): 14.387975042485847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The residual network is now one of the most effective structures in deep
learning, which utilizes the skip connections to ``guarantee" the performance
will not get worse. However, the non-convexity of the neural network makes it
unclear whether the skip connections do provably improve the learning ability
since the nonlinearity may create many local minima. In some previous works
\cite{freeman2016topology}, it is shown that despite the non-convexity, the
loss landscape of the two-layer ReLU network has good properties when the
number $m$ of hidden nodes is very large. In this paper, we follow this line to
study the topology (sub-level sets) of the loss landscape of deep ReLU neural
networks with a skip connection and theoretically prove that the skip
connection network inherits the good properties of the two-layer network and
skip connections can help to control the connectedness of the sub-level sets,
such that any local minima worse than the global minima of some two-layer ReLU
network will be very ``shallow". The ``depth" of these local minima are at most
$O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$. This provides
a theoretical explanation for the effectiveness of the skip connection in deep
learning.
- Abstract(参考訳): 残差ネットワークは、今やディープラーニングの最も効果的な構造のひとつであり、スキップ接続を利用して``guarantee'のパフォーマンスは悪化しない。
しかし、ニューラルネットワークの非凸性は、非線形性が多くの局所的なミニマを生み出すため、スキップ接続が学習能力を向上するかどうかをはっきりしない。
以前の『cite{freeman2016トポロジー』では、非凸性にもかかわらず、2層ReLUネットワークのロスランドスケープは、隠されたノードの$m$が非常に大きいときに良い特性を持つことが示された。
In this paper, we follow this line to study the topology (sub-level sets) of the loss landscape of deep ReLU neural networks with a skip connection and theoretically prove that the skip connection network inherits the good properties of the two-layer network and skip connections can help to control the connectedness of the sub-level sets, such that any local minima worse than the global minima of some two-layer ReLU network will be very ``shallow". The ``depth" of these local minima are at most $O(m^{(\eta-1)/n})$, where $n$ is the input dimension, $\eta<1$.
これは、ディープラーニングにおけるスキップ接続の有効性に関する理論的説明を提供する。
関連論文リスト
- Traversing Between Modes in Function Space for Fast Ensembling [15.145136272169946]
ブリッジ」は、元のネットワークから最小限の機能を持つ軽量ネットワークであり、元のネットワークを前方通過することなく、低損失部分空間の出力を予測する。
我々は,橋梁ネットワークを実際に訓練し,橋梁ネットワークの助けを借りて推論コストを大幅に削減できることを実証的に実証した。
論文 参考訳(メタデータ) (2023-06-20T05:52:26Z) - Computational Complexity of Learning Neural Networks: Smoothness and
Degeneracy [52.40331776572531]
ガウス入力分布下での学習深度3$ReLUネットワークはスムーズな解析フレームワークにおいても困難であることを示す。
この結果は, 局所擬似乱数発生器の存在についてよく研究されている。
論文 参考訳(メタデータ) (2023-02-15T02:00:26Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Deep Learning without Shortcuts: Shaping the Kernel with Tailored
Rectifiers [83.74380713308605]
我々は、ReLUの変種であるLeaky ReLUsと完全に互換性のある新しいタイプの変換を開発する。
実験では,ResNetsと競合する深層バニラネットワークによる検証精度を考慮し,計算コストを考慮しない手法を提案する。
論文 参考訳(メタデータ) (2022-03-15T17:49:08Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Knapsack Pruning with Inner Distillation [11.04321604965426]
そこで本研究では,プルーンドネットワークの最終精度を最適化する新しいプルーニング手法を提案する。
ネットワークの高レベル構造を維持しながら、ネットワークチャネルを熟考する。
提案手法は,ResNetバックボーンを用いたImageNet,CIFAR-10,CIFAR-100における最先端のプルーニング結果をもたらす。
論文 参考訳(メタデータ) (2020-02-19T16:04:48Z) - Network Pruning via Annealing and Direct Sparsity Control [4.976007156860966]
本稿では,非構造的および構造的チャネルレベルのプルーニングに適した,新しい効率的なネットワークプルーニング手法を提案する。
提案手法は, 基準とスケジュールに基づいて, ネットワークパラメータやフィルタチャネルを徐々に除去することにより, 空間制約を緩和する。
論文 参考訳(メタデータ) (2020-02-11T10:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。