論文の概要: A Local Polyak-Lojasiewicz and Descent Lemma of Gradient Descent For Overparametrized Linear Models
- arxiv url: http://arxiv.org/abs/2505.11664v1
- Date: Fri, 16 May 2025 19:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.769417
- Title: A Local Polyak-Lojasiewicz and Descent Lemma of Gradient Descent For Overparametrized Linear Models
- Title(参考訳): 過パラメトリズド線形モデルのための局所ポリアク・ロジャシエヴィチとグラディエントDescentのDescence Lemma
- Authors: Ziqing Xu, Hancheng Min, Salma Tarmoun, Enrique Mallada, Rene Vidal,
- Abstract要約: 正方形損失を学習した2層線形ニューラルネットワークの勾配降下に対する線形収束率を導出した。
我々の収束分析は、事前の結果を改善するだけでなく、ステップサイズに対するより良い選択を示唆している。
- 参考スコア(独自算出の注目度): 6.734175048463699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most prior work on the convergence of gradient descent (GD) for overparameterized neural networks relies on strong assumptions on the step size (infinitesimal), the hidden-layer width (infinite), or the initialization (large, spectral, balanced). Recent efforts to relax these assumptions focus on two-layer linear networks trained with the squared loss. In this work, we derive a linear convergence rate for training two-layer linear neural networks with GD for general losses and under relaxed assumptions on the step size, width, and initialization. A key challenge in deriving this result is that classical ingredients for deriving convergence rates for nonconvex problems, such as the Polyak-{\L}ojasiewicz (PL) condition and Descent Lemma, do not hold globally for overparameterized neural networks. Here, we prove that these two conditions hold locally with local constants that depend on the weights. Then, we provide bounds on these local constants, which depend on the initialization of the weights, the current loss, and the global PL and smoothness constants of the non-overparameterized model. Based on these bounds, we derive a linear convergence rate for GD. Our convergence analysis not only improves upon prior results but also suggests a better choice for the step size, as verified through our numerical experiments.
- Abstract(参考訳): 過パラメータ化されたニューラルネットワークに対する勾配降下(GD)の収束に関するほとんどの先行研究は、ステップサイズ(無限小)、隠蔽層幅(無限)、初期化(大、スペクトル、平衡)に関する強い仮定に依存している。
これらの仮定を緩和する最近の取り組みは、正方形損失で訓練された2層線形ネットワークに焦点を当てている。
本研究では,GDを用いた2層線形ニューラルネットワークの一般損失と,ステップサイズ,幅,初期化に対する緩和仮定に基づく線形収束率を導出する。
この結果の導出における鍵となる課題は、ポリアック-{\L}ojasiewicz(PL)条件やDescent Lemmaのような非凸問題に対する収束率を導出する古典的な成分が、過度にパラメータ化されたニューラルネットワークに対して全世界的に保持されないことである。
ここでは、これらの2つの条件が、重みに依存する局所定数で局所的に成り立つことを証明する。
次に、重みの初期化、電流損失、大域PLおよび非パラメータ化モデルの滑らか性定数に依存するこれらの局所定数のバウンダリを提供する。
これらの境界に基づいて、GDの線形収束率を導出する。
我々の収束解析は, 先行結果の改善だけでなく, 数値実験で検証したように, ステップサイズに対するより良い選択を示唆する。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Approximation Results for Gradient Descent trained Neural Networks [0.0]
ネットワークは完全に接続された一定の深さ増加幅である。
連続カーネルエラーノルムは、滑らかな関数に必要な自然な滑らかさの仮定の下での近似を意味する。
論文 参考訳(メタデータ) (2023-09-09T18:47:55Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - Global convergence of ResNets: From finite to infinite width using
linear parameterization [0.0]
残差ブロックが非線形でありながら線形パラメトリゼーションを有する残差ネットワーク(Residual Networks, ResNets)について検討する。
この極限において、局所的なポリアック・ロジャシエヴィチの不等式を証明し、遅延状態を取得する。
私たちの分析は実用的で定量化されたレシピにつながります。
論文 参考訳(メタデータ) (2021-12-10T13:38:08Z) - The Dynamics of Gradient Descent for Overparametrized Neural Networks [19.11271777632797]
GD の下でのニューラルネットワークの重みのダイナミクスは、最小ノルム解に近い点に収束することを示した。
この結果の応用を説明するために、gd はよく一般化された勾配関数に収束することを示す。
論文 参考訳(メタデータ) (2021-05-13T22:20:30Z) - On the Explicit Role of Initialization on the Convergence and Implicit
Bias of Overparametrized Linear Networks [1.0323063834827415]
勾配流下で訓練された単層線形ネットワークの新たな解析法を提案する。
正方形損失はその最適値に指数関数的に収束することを示す。
我々は、トレーニングされたネットワークとmin-norm解の間の距離に基づいて、新しい非漸近上界を導出する。
論文 参考訳(メタデータ) (2021-05-13T15:13:51Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。