論文の概要: SGD Distributional Dynamics of Three Layer Neural Networks
- arxiv url: http://arxiv.org/abs/2012.15036v1
- Date: Wed, 30 Dec 2020 04:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:04:24.897782
- Title: SGD Distributional Dynamics of Three Layer Neural Networks
- Title(参考訳): 3層ニューラルネットワークのSGD分布ダイナミクス
- Authors: Victor Luo, Yazhen Wang and Glenn Fung
- Abstract要約: 本稿は,Mei et alの平均場結果を拡張することを目的とする。
1つの隠れ層を持つ2つのニューラルネットワークから、2つの隠れ層を持つ3つのニューラルネットワークへ。
sgd は非線形微分方程式の組によって捉えられ、2つの層におけるダイナミクスの分布は独立であることが証明される。
- 参考スコア(独自算出の注目度): 7.025709586759655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rise of big data analytics, multi-layer neural networks have
surfaced as one of the most powerful machine learning methods. However, their
theoretical mathematical properties are still not fully understood. Training a
neural network requires optimizing a non-convex objective function, typically
done using stochastic gradient descent (SGD). In this paper, we seek to extend
the mean field results of Mei et al. (2018) from two-layer neural networks with
one hidden layer to three-layer neural networks with two hidden layers. We will
show that the SGD dynamics is captured by a set of non-linear partial
differential equations, and prove that the distributions of weights in the two
hidden layers are independent. We will also detail exploratory work done based
on simulation and real-world data.
- Abstract(参考訳): ビッグデータ分析の台頭に伴い、多層ニューラルネットワークは最も強力な機械学習手法の1つとして浮上した。
しかし、理論的な数学的性質はまだ完全には理解されていない。
ニューラルネットワークのトレーニングには、通常確率勾配降下(sgd)を使用して行われる非凸目的関数を最適化する必要がある。
本稿では,Mei et alの平均場結果を拡張することを目的とする。
(2018) 隠れた層を持つ2層ニューラルネットワークから隠れた層を持つ3層ニューラルネットワークへ移行した。
SGD力学は非線形偏微分方程式の集合によって捉えられ、2つの隠蔽層における重みの分布が独立であることを証明する。
シミュレーションと実世界データに基づく探索作業についても詳述する。
関連論文リスト
- The merged-staircase property: a necessary and nearly sufficient
condition for SGD learning of sparse functions on two-layer neural networks [24.428843425522103]
我々は,SGD-Lrnability with $O(d)$ sample complexity in a large ambient dimension。
本研究の主な成果は, 階層的特性である「マージ階段特性」を特徴付けるものである。
鍵となるツールは、潜在低次元部分空間上で定義される函数に適用される新しい「次元自由」力学近似である。
論文 参考訳(メタデータ) (2022-02-17T13:43:06Z) - A Local Geometric Interpretation of Feature Extraction in Deep
Feedforward Neural Networks [13.159994710917022]
本稿では, 深部フィードフォワードニューラルネットワークが高次元データから低次元特徴をいかに抽出するかを理解するための局所幾何学的解析法を提案する。
本研究は, 局所幾何学領域において, ニューラルネットワークの一層における最適重みと前層の最適特徴が, この層のベイズ作用によって決定される行列の低ランク近似を構成することを示す。
論文 参考訳(メタデータ) (2022-02-09T18:50:00Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - The Three Stages of Learning Dynamics in High-Dimensional Kernel Methods [14.294357100033954]
我々は、SGDトレーニングニューラルネットワークの制限力学である、最小二乗目的のフローのトレーニング力学を考察する。
SGDはより複雑な関数を徐々に学習し、「深い勾配」現象が存在することを示す。
論文 参考訳(メタデータ) (2021-11-13T18:29:36Z) - Classifying high-dimensional Gaussian mixtures: Where kernel methods
fail and neural networks succeed [27.38015169185521]
2層ニューラルネットワーク (2lnn) の隠れたニューロンがカーネル学習の性能を上回ることができることを理論的に示している。
ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的な性能は改善しないことを示す。
論文 参考訳(メタデータ) (2021-02-23T15:10:15Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。
損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文 参考訳(メタデータ) (2020-12-31T18:53:25Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。