論文の概要: From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions
- arxiv url: http://arxiv.org/abs/2507.21429v1
- Date: Tue, 29 Jul 2025 01:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.545409
- Title: From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions
- Title(参考訳): サブリニアから線形へ:局所的ポリアック・ロジャシエヴィチ地域を経由したディープネットワークの高速収束
- Authors: Agnideep Aich, Ashit Baran Aich, Bruce Wade,
- Abstract要約: 本稿では、ディープニューラルネットワーク(DNN)の非GD同値損失に関する理論的課題を示す。
準最適ギャップの勾配下界は、適切に有限幅のネットワークが L 内に二乗勾配を持つことを証明している。
我々の研究は、ディープラーニングの効率性の理論的な説明を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of gradient descent (GD) on the non-convex loss landscapes of deep neural networks (DNNs) presents a fundamental theoretical challenge. While recent work has established that GD converges to a stationary point at a sublinear rate within locally quasi-convex regions (LQCRs), this fails to explain the exponential convergence rates consistently observed in practice. In this paper, we resolve this discrepancy by proving that under a mild assumption on Neural Tangent Kernel (NTK) stability, these same regions satisfy a local Polyak-Lojasiewicz (PL) condition. We introduce the concept of a Locally Polyak-Lojasiewicz Region (LPLR), where the squared gradient norm lower-bounds the suboptimality gap, prove that properly initialized finite-width networks admit such regions around initialization, and establish that GD achieves linear convergence within an LPLR, providing the first finite-width guarantee that matches empirically observed rates. We validate our theory across diverse settings, from controlled experiments on fully-connected networks to modern ResNet architectures trained with stochastic methods, demonstrating that LPLR structure emerges robustly in practical deep learning scenarios. By rigorously connecting local landscape geometry to fast optimization through the NTK framework, our work provides a definitive theoretical explanation for the remarkable efficiency of gradient-based optimization in deep learning.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の非凸損失ランドスケープに対する勾配降下(GD)の収束は、根本的な理論的課題である。
近年の研究では、GDは局所準凸領域(LQCR)内の準線形速度で定常点に収束することが確認されているが、これは実際に一貫して観測される指数収束率を説明することに失敗している。
本稿では,ニューラル・タンジェント・カーネル(NTK)の安定性を軽度に仮定して,これらの領域が局所的なポリアック・ロジャシエヴィチ(PL)条件を満たすことを証明して,この相違を解消する。
局所ポリアック・ロジャシエヴィチ地域(LPLR)の概念を導入し、二乗勾配ノルムが準最適ギャップを低くし、適切な初期化有限幅ネットワークが初期化の周囲の領域を許容することを証明し、GDがLPLR内で線形収束し、経験的に観測された速度に一致する最初の有限幅保証を提供する。
我々は,完全に接続されたネットワーク上での制御実験から,確率的手法で訓練された現代のResNetアーキテクチャに至るまで,我々の理論を多種多様に検証し,実用的なディープラーニングシナリオにおいてLPLR構造が堅牢に現れることを示した。
NTKフレームワークを通じて局所地形幾何学と高速最適化を厳密に結合することにより、ディープラーニングにおける勾配に基づく最適化の顕著な効率に関する決定的な理論的説明を提供する。
関連論文リスト
- Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。