Fugu-MT 論文翻訳(概要): On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime

論文の概要: On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime

arxiv url: http://arxiv.org/abs/2110.02926v1
Date: Wed, 6 Oct 2021 17:16:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-07 17:11:43.081038
Title: On the Global Convergence of Gradient Descent for multi-layer ResNets in the mean-field regime
Title（参考訳）: 平均場状態における多層ResNetのグラディエントDescentのグローバル収束について
Authors: Zhiyan Ding and Shi Chen and Qin Li and Stephen Wright
Abstract要約: 一階法は、グローバル化された体制におけるグローバルな最適性を見出す。 ResNetが十分に大きく、精度と信頼度に応じて深さ幅がある場合、一階法はデータに適合する最適化を見つけることができる。
参考スコア（独自算出の注目度）: 19.45069138853531
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finding the optimal configuration of parameters in ResNet is a nonconvex minimization problem, but first-order methods nevertheless find the global optimum in the overparameterized regime. We study this phenomenon with mean-field analysis, by translating the training process of ResNet to a gradient-flow partial differential equation (PDE) and examining the convergence properties of this limiting process. The activation function is assumed to be $2$-homogeneous or partially $1$-homogeneous; the regularized ReLU satisfies the latter condition. We show that if the ResNet is sufficiently large, with depth and width depending algebraically on the accuracy and confidence levels, first-order optimization methods can find global minimizers that fit the training data.
Abstract（参考訳）: ResNetにおけるパラメータの最適設定を見つけることは、非凸最小化問題であるが、一方、一階法は過度なパラメータ化状態における大域的最適性を見出す。本研究では、ResNetの学習過程を勾配流偏微分方程式(PDE)に変換し、この制限過程の収束特性を調べることにより、平均場解析を用いてこの現象を研究する。活性化関数は 2$-等質あるいは部分的に 1$-等質であると仮定され、正規化された ReLU は後者の条件を満たす。 ResNetが十分に大きく、精度と信頼度によって代数的に深さと幅がある場合、一階最適化法はトレーニングデータに適合する大域最小化器を見つけることができる。

関連論文リスト

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文参考訳（メタデータ） (2025-12-28T05:48:55Z)
Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文参考訳（メタデータ） (2025-11-18T17:51:17Z)
Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。 IGDは線形収束速度で大域的に最適解を収束することを示す。
論文参考訳（メタデータ） (2024-07-03T06:10:41Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。これは空間における有限幅の勾配距離の理論に依存する。
論文参考訳（メタデータ） (2024-03-19T16:34:31Z)
Generalization of Scaled Deep ResNets in the Mean-Field Regime [55.77054255101667]
無限深度および広帯域ニューラルネットワークの限界におけるエンスケールResNetについて検討する。この結果から,遅延学習体制を超えた深層ResNetの一般化能力に関する新たな知見が得られた。
論文参考訳（メタデータ） (2024-03-14T21:48:00Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Optimal Sets and Solution Paths of ReLU Networks [56.40911684005949]
最適なReLUネットワークの集合を特徴付ける分析フレームワークを開発した。我々は、ReLUネットワークのニューラル化を継続する条件を確立し、ReLUネットワークに対する感度結果を開発する。
論文参考訳（メタデータ） (2023-05-31T18:48:16Z)
Improved Overparametrization Bounds for Global Convergence of Stochastic Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文参考訳（メタデータ） (2022-01-28T11:30:06Z)
Global convergence of ResNets: From finite to infinite width using linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。私たちの分析は実用的で定量化されたレシピにつながります。
論文参考訳（メタデータ） (2021-12-10T13:38:08Z)
Overparameterization of deep ResNet: zero loss and mean-field analysis [19.45069138853531]
データに適合するディープニューラルネットワーク(NN)内のパラメータを見つけることは、非最適化問題である。基礎的な一階述語最適化法(漸進降下法)は,多くの現実的状況に完全に適合した大域的解を求める。所定の閾値未満の損失を減らすために必要な深さと幅を高い確率で推定する。
論文参考訳（メタデータ） (2021-05-30T02:46:09Z)
The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文参考訳（メタデータ） (2020-06-10T15:38:30Z)
Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文参考訳（メタデータ） (2020-02-25T23:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。