論文の概要: On the global convergence of gradient descent for wide shallow models with bounded nonlinearities
- arxiv url: http://arxiv.org/abs/2605.10775v1
- Date: Mon, 11 May 2026 16:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.968339
- Title: On the global convergence of gradient descent for wide shallow models with bounded nonlinearities
- Title(参考訳): 有界非線形性を持つ幅の浅いモデルに対する勾配勾配の大域収束について
- Authors: Romain Petit, Clarice Poon, Gabriel Peyré,
- Abstract要約: ニューラルネットワークの驚くべき現象は、勾配降下によるトレーニング損失の世界的な最小化要因を見つける能力である。
トレーニング損失の非言語的最小化は、不安定な勾配降下ダイナミクスであることを示す。
- 参考スコア(独自算出の注目度): 18.375053625992802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A surprising phenomenon in the training of neural networks is the ability of gradient descent to find global minimizers of the training loss despite its non-convexity. Following earlier works, we investigate this behavior for wide shallow networks. Existing results essentially cover the case of ReLU activations and the case of sigmoid activations with scalar output weights. We study a large class of models that includes multi-head attention layers and two-layer sigmoid networks with vector output weights. Building upon [Chizat and Bach, 2018], we prove that all non-global minimizers of the training loss are unstable under gradient descent dynamics. Thus, when the initial distribution of the parameters has full support (which includes the popular Gaussian case), and in the many hidden neurons or attention heads limit, continuous-time gradient descent can only converge to global minimizers. Establishing the instability of non-global minimizers corresponds to the construction of an ``escaping active set'' -- we complete the proof of [Chizat and Bach, 2018] to construct this set for models with bounded nonlinearities and scalar output weights. We also extend this construction to new cases for models with vector output weights. Finally, we show the well-posedness and the stability with respect to discretization of the mean field training dynamic for sub-Gaussian initializations.
- Abstract(参考訳): ニューラルネットワークのトレーニングにおいて驚くべき現象は、非凸性にもかかわらずトレーニング損失の世界的な最小化要因を見つけることができる勾配降下能力である。
先行研究に続いて、広帯域浅層ネットワークにおけるこの挙動について検討する。
既存の結果は、ReLU活性化の場合と、スカラー出力重み付きシグモイド活性化の場合を基本的にカバーしている。
ベクトル出力重み付き多層アテンション層と二層シグモノイドネットワークを含む多層モデルについて検討する。
Chizat and Bach, 2018]をベースとして, トレーニング損失の非言語的最小化は, 勾配降下ダイナミクスの下で不安定であることが証明された。
したがって、パラメータの初期分布が完全なサポート(ガウスの場合を含む)を持ち、多くの隠れたニューロンや注目ヘッド制限において、連続時間勾配勾配は、大域最小化にのみ収束する。
非グロバルな最小値の不安定性を確立することは、'エスケープアクティブな集合' の構成に対応する -- 我々は[Chizat and Bach, 2018] の証明を完了し、境界非線形性とスカラー出力重みを持つモデルに対してこの集合を構築する。
また、この構成をベクトル出力重み付きモデルの新しいケースにも拡張する。
最後に、ガウス級初期化に対する平均場トレーニングの力学の離散化について、その正当性と安定性を示す。
関連論文リスト
- Non-Singularity of the Gradient Descent map for Neural Networks with Piecewise Analytic Activations [53.348574336527854]
重みとバイアスの空間上の関数としてのニューラルネットワークマップについて検討する。
我々は、現実的なニューラルネットワークアーキテクチャの損失ランドスケープにおける勾配降下(GD)マップの非特異性を初めて証明した。
論文 参考訳(メタデータ) (2025-10-28T14:34:33Z) - The global convergence time of stochastic gradient descent in non-convex landscapes: Sharp estimates via large deviations [29.642830843568525]
一般の非損失関数の大域的最小値に到達するのに、降下勾配に要する時間について検討する。
ニューラルネットワークへの応用により、我々は局所ミニマを用いた損失関数の解析の一連の改良と拡張を提供する。
論文 参考訳(メタデータ) (2025-03-20T17:54:04Z) - On the Convergence of Gradient Descent for Large Learning Rates [55.33626480243135]
固定ステップサイズを使用すると収束が不可能であることを示す。
正方形損失を持つ線形ニューラルネットワークの場合,これを証明した。
また、勾配に対するリプシッツ連続性のような強い仮定を必要とせず、より一般的な損失に対する収束の不可能性も証明する。
論文 参考訳(メタデータ) (2024-02-20T16:01:42Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Perturbation Analysis of Neural Collapse [24.94449183555951]
分類のためのディープニューラルネットワークのトレーニングには、ゼロトレーニングエラー点を超えるトレーニング損失を最小限にすることが含まれる。
最近の研究は、全ての最小化器が正確な崩壊を示す理想化された制約のない特徴モデルを通して、この挙動を分析している。
本稿では,この現象を,予め定義された特徴行列の近傍に留まらせることで,よりリッチなモデルを提案する。
論文 参考訳(メタデータ) (2022-10-29T17:46:03Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。
最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。
本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文 参考訳(メタデータ) (2022-02-16T14:17:37Z) - An Unconstrained Layer-Peeled Perspective on Neural Collapse [20.75423143311858]
非拘束層列モデル (ULPM) と呼ばれるサロゲートモデルを導入する。
このモデル上の勾配流は、その大域的最小化器における神経崩壊を示す最小ノルム分離問題の臨界点に収束することを示す。
また,本研究の結果は,実世界のタスクにおけるニューラルネットワークのトレーニングにおいて,明示的な正規化や重み劣化が使用されない場合にも有効であることを示す。
論文 参考訳(メタデータ) (2021-10-06T14:18:47Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。