論文の概要: Properties of the geometry of solutions and capacity of multi-layer neural networks with Rectified Linear Units activations
- arxiv url: http://arxiv.org/abs/1907.07578v6
- Date: Fri, 3 May 2024 10:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:43:25.951108
- Title: Properties of the geometry of solutions and capacity of multi-layer neural networks with Rectified Linear Units activations
- Title(参考訳): 線形ユニット活性化を伴う多層ニューラルネットワークの解の幾何学と容量特性
- Authors: Carlo Baldassi, Enrico M. Malatesta, Riccardo Zecchina,
- Abstract要約: 本稿では,2層ニューラルネットワークにおける線形整流ユニットが解空間の容量および幾何学的景観に与える影響について検討する。
予想外のことに、隠れた層内のニューロン数が増加するにつれて、ネットワークの容量は有限であることがわかった。
おそらくもっと重要なことは、大きな偏差のアプローチによって、解空間の幾何学的景観が特異な構造を持つことを見つけることができるということである。
- 参考スコア(独自算出の注目度): 2.3018169548556977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rectified Linear Units (ReLU) have become the main model for the neural units in current deep learning systems. This choice has been originally suggested as a way to compensate for the so called vanishing gradient problem which can undercut stochastic gradient descent (SGD) learning in networks composed of multiple layers. Here we provide analytical results on the effects of ReLUs on the capacity and on the geometrical landscape of the solution space in two-layer neural networks with either binary or real-valued weights. We study the problem of storing an extensive number of random patterns and find that, quite unexpectedly, the capacity of the network remains finite as the number of neurons in the hidden layer increases, at odds with the case of threshold units in which the capacity diverges. Possibly more important, a large deviation approach allows us to find that the geometrical landscape of the solution space has a peculiar structure: while the majority of solutions are close in distance but still isolated, there exist rare regions of solutions which are much more dense than the similar ones in the case of threshold units. These solutions are robust to perturbations of the weights and can tolerate large perturbations of the inputs. The analytical results are corroborated by numerical findings.
- Abstract(参考訳): Rectified Linear Units (ReLU) は、現在のディープラーニングシステムのニューラルユニットの主要なモデルとなっている。
この選択は、もともと、複数の層からなるネットワークにおける確率勾配勾配(SGD)学習を弱めるいわゆる消滅勾配問題を補う方法として提案されている。
ここでは、ReLUが2重または実数値の重みを持つ2層ニューラルネットワークにおける解空間の容量および幾何学的景観に与える影響について解析的な結果を提供する。
多数のランダムなパターンを格納する問題について検討し、予想外のことに、隠れた層内のニューロン数が増加するにつれてネットワークの容量は有限であり、キャパシティが分岐する閾値単位の場合と正反対であることを示す。
おそらくより重要であり、大きな偏差法により、解空間の幾何学的景観が特異な構造を持っていることが分かる:解の大部分は距離が近いが、孤立しているものの、閾値単位の場合と同様の解よりもはるかに密な希少な領域が存在する。
これらの解は重みの摂動に対して堅牢であり、入力の大きな摂動に耐えることができる。
解析結果は数値的な結果と相関する。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Asymptotics of Learning with Deep Structured (Random) Features [9.366617422860543]
機能マップの大規模なクラスでは、読み出しレイヤの学習に伴うテストエラーの厳密な特徴付けを提供しています。
いくつかのケースでは、勾配降下下で訓練された深部有限幅ニューラルネットワークによって学習された特徴写像をキャプチャできる。
論文 参考訳(メタデータ) (2024-02-21T18:35:27Z) - A Stable and Scalable Method for Solving Initial Value PDEs with Neural
Networks [52.5899851000193]
我々は,ネットワークの条件が悪くなるのを防止し,パラメータ数で時間線形に動作するODEベースのIPPソルバを開発した。
このアプローチに基づく現在の手法は2つの重要な問題に悩まされていることを示す。
まず、ODEに従うと、問題の条件付けにおいて制御不能な成長が生じ、最終的に許容できないほど大きな数値誤差が生じる。
論文 参考訳(メタデータ) (2023-04-28T17:28:18Z) - Typical and atypical solutions in non-convex neural networks with
discrete and continuous weights [2.7127628066830414]
ランダムな規則や関連を学習する単純な非拘束型ネットワークモデルとして、二項および連続負マージンパーセプトロンについて検討する。
どちらのモデルも、非常に平坦で幅の広い劣支配的な最小化器を示す。
両モデルにおいて、学習装置としての一般化性能は、広い平坦な最小化器の存在により大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-04-26T23:34:40Z) - AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable
Basis Expansion for Multiphase Flow Problems [8.991619150027267]
本研究では、物理過程の学習に応用可能な適応スパース学習アルゴリズムを提案し、大きなスナップショット空間を与えられた解のスパース表現を得る。
基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。
複雑なアプリケーションにおける提案手法の有効性と解釈性を示すため, 2相多相流問題に対してより数値的な実験を行った。
論文 参考訳(メタデータ) (2022-07-24T13:12:43Z) - Message Passing Neural PDE Solvers [60.77761603258397]
我々は、バックプロップ最適化されたニューラル関数近似器で、グラフのアリーデザインのコンポーネントを置き換えるニューラルメッセージパッシング解決器を構築した。
本稿では, 有限差分, 有限体積, WENOスキームなどの古典的手法を表現的に含んでいることを示す。
本研究では, 異なる領域のトポロジ, 方程式パラメータ, 離散化などにおける高速, 安定, 高精度な性能を, 1次元, 2次元で検証する。
論文 参考訳(メタデータ) (2022-02-07T17:47:46Z) - Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。
SGDは単純な解に偏りがあることが示される。
また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文 参考訳(メタデータ) (2021-11-03T15:14:20Z) - The Separation Capacity of Random Neural Networks [78.25060223808936]
標準ガウス重みと一様分布バイアスを持つ十分に大きな2層ReLUネットワークは、この問題を高い確率で解くことができることを示す。
我々は、相互複雑性という新しい概念の観点から、データの関連構造を定量化する。
論文 参考訳(メタデータ) (2021-07-31T10:25:26Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。