Fugu-MT 論文翻訳(概要): SGD Distributional Dynamics of Three Layer Neural Networks

論文の概要: SGD Distributional Dynamics of Three Layer Neural Networks

arxiv url: http://arxiv.org/abs/2012.15036v1
Date: Wed, 30 Dec 2020 04:37:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-18 06:04:24.897782
Title: SGD Distributional Dynamics of Three Layer Neural Networks
Title（参考訳）: 3層ニューラルネットワークのSGD分布ダイナミクス
Authors: Victor Luo, Yazhen Wang and Glenn Fung
Abstract要約: 本稿は,Mei et alの平均場結果を拡張することを目的とする。 1つの隠れ層を持つ2つのニューラルネットワークから、2つの隠れ層を持つ3つのニューラルネットワークへ。 sgd は非線形微分方程式の組によって捉えられ、2つの層におけるダイナミクスの分布は独立であることが証明される。
参考スコア（独自算出の注目度）: 7.025709586759655
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the rise of big data analytics, multi-layer neural networks have surfaced as one of the most powerful machine learning methods. However, their theoretical mathematical properties are still not fully understood. Training a neural network requires optimizing a non-convex objective function, typically done using stochastic gradient descent (SGD). In this paper, we seek to extend the mean field results of Mei et al. (2018) from two-layer neural networks with one hidden layer to three-layer neural networks with two hidden layers. We will show that the SGD dynamics is captured by a set of non-linear partial differential equations, and prove that the distributions of weights in the two hidden layers are independent. We will also detail exploratory work done based on simulation and real-world data.
Abstract（参考訳）: ビッグデータ分析の台頭に伴い、多層ニューラルネットワークは最も強力な機械学習手法の1つとして浮上した。しかし、理論的な数学的性質はまだ完全には理解されていない。ニューラルネットワークのトレーニングには、通常確率勾配降下(sgd)を使用して行われる非凸目的関数を最適化する必要がある。本稿では,Mei et alの平均場結果を拡張することを目的とする。 (2018) 隠れた層を持つ2層ニューラルネットワークから隠れた層を持つ3層ニューラルネットワークへ移行した。 SGD力学は非線形偏微分方程式の集合によって捉えられ、2つの隠蔽層における重みの分布が独立であることを証明する。シミュレーションと実世界データに基づく探索作業についても詳述する。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
An Analysis Framework for Understanding Deep Neural Networks Based on Network Dynamics [11.44947569206928]
ディープニューラルネットワーク(DNN)は、ディープ層にまたがる異なるモードのニューロンの割合を合理的に割り当てることで、情報抽出を最大化する。このフレームワークは、"フラット・ミニマ効果(flat minima effect)"、"グロッキング(grokking)"、二重降下現象(double descend phenomena)など、基本的なDNNの振る舞いについて統一的な説明を提供する。
論文参考訳（メタデータ） (2025-01-05T04:23:21Z)
Enhancing lattice kinetic schemes for fluid dynamics with Lattice-Equivariant Neural Networks [79.16635054977068]
我々はLattice-Equivariant Neural Networks (LENNs)と呼ばれる新しい同変ニューラルネットワークのクラスを提案する。我々の手法は、ニューラルネットワークに基づく代理モデルLattice Boltzmann衝突作用素の学習を目的とした、最近導入されたフレームワーク内で開発されている。本研究は,実世界のシミュレーションにおける機械学習強化Lattice Boltzmann CFDの実用化に向けて展開する。
論文参考訳（メタデータ） (2024-05-22T17:23:15Z)
Improved Generalization of Weight Space Networks via Augmentations [53.87011906358727]
深度重み空間(DWS)における学習は新たな研究方向であり、2次元および3次元神経場(INRs, NeRFs)への応用我々は、この過度な適合の理由を実証的に分析し、主要な理由は、DWSデータセットの多様性の欠如であることがわかった。そこで本研究では,重み空間におけるデータ拡張戦略について検討し,重み空間に適応したMixUp法を提案する。
論文参考訳（メタデータ） (2024-02-06T15:34:44Z)
Beyond IID weights: sparse and low-rank deep Neural Networks are also Gaussian Processes [3.686808512438363]
我々は Matthews らの証明を、より大きな初期重み分布のクラスに拡張する。また,PSEUDO-IID分布を用いた完全連結・畳み込みネットワークは,その分散にほぼ等価であることを示す。この結果を用いて、ニューラルネットワークの幅広いクラスに対してEdge-of-Chaosを識別し、トレーニングを強化するために臨界度で調整することができる。
論文参考訳（メタデータ） (2023-10-25T12:38:36Z)
Addressing caveats of neural persistence with deep graph persistence [54.424983583720675]
神経の持続性に影響を与える主な要因は,ネットワークの重みのばらつきと大きな重みの空間集中である。単一層ではなく,ニューラルネットワーク全体へのニューラルネットワークの持続性に基づくフィルタリングの拡張を提案する。これにより、ネットワーク内の永続的なパスを暗黙的に取り込み、分散に関連する問題を緩和するディープグラフの永続性測定が得られます。
論文参考訳（メタデータ） (2023-07-20T13:34:11Z)
Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文参考訳（メタデータ） (2023-05-11T17:19:30Z)
Exploring the Approximation Capabilities of Multiplicative Neural Networks for Smooth Functions [9.936974568429173]
対象関数のクラスは、一般化帯域制限関数とソボレフ型球である。以上の結果から、乗法ニューラルネットワークは、これらの関数をはるかに少ない層とニューロンで近似できることを示した。これらの結果は、乗法ゲートが標準フィードフォワード層より優れ、ニューラルネットワーク設計を改善する可能性があることを示唆している。
論文参考訳（メタデータ） (2023-01-11T17:57:33Z)
A Local Geometric Interpretation of Feature Extraction in Deep Feedforward Neural Networks [13.159994710917022]
本稿では, 深部フィードフォワードニューラルネットワークが高次元データから低次元特徴をいかに抽出するかを理解するための局所幾何学的解析法を提案する。本研究は, 局所幾何学領域において, ニューラルネットワークの一層における最適重みと前層の最適特徴が, この層のベイズ作用によって決定される行列の低ランク近似を構成することを示す。
論文参考訳（メタデータ） (2022-02-09T18:50:00Z)
Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文参考訳（メタデータ） (2021-12-04T18:07:47Z)
How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks [80.55378250013496]
勾配勾配降下法によりトレーニングされたニューラルネットワークが、トレーニング分布の支持の外で学んだことを外挿する方法について検討する。グラフニューラルネットワーク(GNN)は、より複雑なタスクでいくつかの成功を収めている。
論文参考訳（メタデータ） (2020-09-24T17:48:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。