論文の概要: Benignity of loss landscape with weight decay requires both large overparametrization and initialization
- arxiv url: http://arxiv.org/abs/2505.22578v1
- Date: Wed, 28 May 2025 16:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.74545
- Title: Benignity of loss landscape with weight decay requires both large overparametrization and initialization
- Title(参考訳): 重量減衰を伴う損失景観の良性は、大きな過パラメトリゼーションと初期化の両方を必要とする
- Authors: Etienne Boursier, Matthew Bowditch, Matthias Englert, Ranko Lazic,
- Abstract要約: 大規模な過度なパラメトリゼーションの下で、風景は、すばやい局地的なミニマを伴わない、良心的になる。
より正確には、この状態において、ほぼ全ての一定の活性化領域は、大域的な最小値を持ち、急激な局所最小値を持たない。
- 参考スコア(独自算出の注目度): 9.680891499006469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimization of neural networks under weight decay remains poorly understood from a theoretical standpoint. While weight decay is standard practice in modern training procedures, most theoretical analyses focus on unregularized settings. In this work, we investigate the loss landscape of the $\ell_2$-regularized training loss for two-layer ReLU networks. We show that the landscape becomes benign -- i.e., free of spurious local minima -- under large overparametrization, specifically when the network width $m$ satisfies $m \gtrsim \min(n^d, 2^n)$, where $n$ is the number of data points and $d$ the input dimension. More precisely in this regime, almost all constant activation regions contain a global minimum and no spurious local minima. We further show that this level of overparametrization is not only sufficient but also necessary via the example of orthogonal data. Finally, we demonstrate that such loss landscape results primarily hold relevance in the large initialization regime. In contrast, for small initializations -- corresponding to the feature learning regime -- optimization can still converge to spurious local minima, despite the global benignity of the landscape.
- Abstract(参考訳): 重み付け崩壊下のニューラルネットワークの最適化は、理論的な観点からはあまり理解されていない。
体重減少は現代の訓練手順では標準的な慣行であるが、理論解析のほとんどは規則化されていない設定に重点を置いている。
本研究では,2層ReLUネットワークにおける$\ell_2$-regularizedトレーニング損失の損失状況について検討する。
特に、ネットワーク幅$m$が$m \gtrsim \min(n^d, 2^n)$を満たす場合、$n$はデータポイントの数であり、$d$は入力次元である。
より正確には、この状態において、ほぼ全ての一定の活性化領域は、大域的な最小値を持ち、急激な局所最小値を持たない。
さらに、このオーバーパラメトリゼーションのレベルが十分であるだけでなく、直交データの例を通して必要であることを示す。
最後に、このような損失景観は、大規模な初期化体制において主に関係があることを実証する。
対照的に、機能学習体制に対応する小さな初期化の場合、最適化は、世界の景観の良さにもかかわらず、急激な局所的なミニマに収束する可能性がある。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - From Zero to Hero: How local curvature at artless initial conditions leads away from bad minima [9.50832466973301]
複雑な損失景観のケーススタディとして,位相探索問題に焦点をあてる。
スペクトルの遷移が起こり、方向が失われ、システムが悪いミニマに閉じ込められることを示す。
我々の分析は、有限次元の勾配勾配勾配ダイナミクスを促進する新しいメカニズムに光を当てている。
論文 参考訳(メタデータ) (2024-03-04T19:12:13Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - Neighborhood Region Smoothing Regularization for Finding Flat Minima In
Deep Neural Networks [16.4654807047138]
我々はNRS(Neighborhood Region Smoothing)と呼ばれる効果的な正規化手法を提案する。
NRSは、近似出力を得るために、重量空間の近傍領域を規則化しようとする。
NRSによって発見されたミニマは、従来の方法に比べて比較的小さなヘッセン固有値を持つことを実証的に示す。
論文 参考訳(メタデータ) (2022-01-16T15:11:00Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural
Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。
これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文 参考訳(メタデータ) (2021-07-21T22:05:48Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - A Geometric Analysis of Neural Collapse with Unconstrained Features [40.66585948844492]
Neural;Collapse$の最初のグローバル最適化ランドスケープ分析を提供します。
この現象は、トレーニングの終末期におけるニューラルネットワークのラスト層分類器と特徴に現れる。
論文 参考訳(メタデータ) (2021-05-06T00:00:50Z) - BN-invariant sharpness regularizes the training model to better
generalization [72.97766238317081]
BN下等価ネットワークに対して一貫した値を与えるシャープネス測定法BN-Sharpnessを提案する。
我々はBNシャープネスを用いてトレーニングを正規化し、アルゴリズムを設計し、新しい正規化対象を最小化する。
論文 参考訳(メタデータ) (2021-01-08T10:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。