Fugu-MT 論文翻訳(概要): Structure and Gradient Dynamics Near Global Minima of Two-layer Neural Networks

論文の概要: Structure and Gradient Dynamics Near Global Minima of Two-layer Neural Networks

arxiv url: http://arxiv.org/abs/2309.00508v1
Date: Fri, 1 Sep 2023 14:53:51 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 13:10:26.410506
Title: Structure and Gradient Dynamics Near Global Minima of Two-layer Neural Networks
Title（参考訳）: 2層ニューラルネットワークの大域最小値近傍の構造と勾配ダイナミクス
Authors: Leyang Zhang, Yaoyu Zhang, Tao Luo
Abstract要約: グローバルミニマ付近の2層ニューラルネットワークの損失景観構造について検討する。完全な一般化を与えるパラメータの集合を決定し、その周りの勾配流を完全に特徴づける。
参考スコア（独自算出の注目度）: 4.965795525460378
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Under mild assumptions, we investigate the structure of loss landscape of two-layer neural networks near global minima, determine the set of parameters which give perfect generalization, and fully characterize the gradient flows around it. With novel techniques, our work uncovers some simple aspects of the complicated loss landscape and reveals how model, target function, samples and initialization affect the training dynamics differently. Based on these results, we also explain why (overparametrized) neural networks could generalize well.
Abstract（参考訳）: 軽微な仮定の下で、大域的ミニマ付近の2層ニューラルネットワークの損失景観の構造を調査し、完全な一般化を与えるパラメータの集合を決定し、その周りの勾配の流れを完全に特徴づける。新たな手法により、複雑な損失景観の単純な側面を明らかにし、モデル、ターゲット関数、サンプル、初期化がトレーニングのダイナミクスにどう影響するかを明らかにする。これらの結果に基づき、(過パラメータ化)ニューラルネットワークがうまく一般化できる理由を説明した。

関連論文リスト

Low-Loss Space in Neural Networks is Continuous and Fully Connected [0.8212195887472242]
2つの異なるミニマを、損失の少ない中間点からなる経路に接続できることを示す。また、モデル一般化を改善するための新しい可視化手法や機会も提供しています。
論文参考訳（メタデータ） (2025-05-05T12:16:55Z)
Generalization Error of Graph Neural Networks in the Mean-field Regime [10.35214360391282]
グラフ畳み込みニューラルネットワークとメッセージパッシンググラフニューラルネットワークという,広く利用されている2種類のグラフニューラルネットワークについて検討する。我々の新しいアプローチは、これらのグラフニューラルネットワークの一般化誤差を評価する平均場内上限を導出することである。
論文参考訳（メタデータ） (2024-02-10T19:12:31Z)
Over-parameterised Shallow Neural Networks with Asymmetrical Node Scaling: Global Convergence Guarantees and Feature Learning [23.47570704524471]
我々は,各隠れノードの出力を正のパラメータでスケールする勾配流による大規模および浅層ニューラルネットワークの最適化を検討する。大規模なニューラルネットワークでは、高い確率で勾配流がグローバルな最小限に収束し、NTK体制とは異なり、特徴を学習できることを実証する。
論文参考訳（メタデータ） (2023-02-02T10:40:06Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
FuNNscope: Visual microscope for interactively exploring the loss landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文参考訳（メタデータ） (2022-04-09T16:41:53Z)
Deep Networks on Toroids: Removing Symmetries Reveals the Structure of Flat Regions in the Landscape Geometry [3.712728573432119]
我々は、すべての対称性を除去し、トロイダルトポロジーをもたらす標準化されたパラメータ化を開発する。最小化器の平坦性とそれらの接続する測地線経路の有意義な概念を導出する。また、勾配勾配の変種によって発見された最小化器は、ゼロエラー経路と1つの曲がり角で接続可能であることも見いだした。
論文参考訳（メタデータ） (2022-02-07T09:57:54Z)
An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文参考訳（メタデータ） (2021-10-06T14:18:47Z)
Topological obstructions in neural networks learning [67.8848058842671]
損失勾配関数フローのグローバル特性について検討する。損失関数とそのモースコンプレックスの位相データ解析を用いて,損失面の大域的特性と勾配軌道に沿った局所的挙動を関連付ける。
論文参考訳（メタデータ） (2020-12-31T18:53:25Z)
Generalization bound of globally optimal non-convex neural network training: Transportation map estimation by infinite dimensional Langevin dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文参考訳（メタデータ） (2020-07-11T18:19:50Z)
Modeling from Features: a Mean-field Framework for Over-parameterized Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文参考訳（メタデータ） (2020-07-03T01:37:16Z)
The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文参考訳（メタデータ） (2020-06-10T15:38:30Z)
A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable Optimization Via Overparameterization From Depth [19.866928507243617]
勾配降下(SGD)を伴う深層ニューラルネットワークのトレーニングは、現実世界の風景でのトレーニング損失をゼロにすることが多い。我々は,アラーがグローバルであるという意味で優れたトレーニングを享受する,無限大深部残差ネットワークの新たな限界を提案する。
論文参考訳（メタデータ） (2020-03-11T20:14:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。