論文の概要: From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions
- arxiv url: http://arxiv.org/abs/2507.21429v1
- Date: Tue, 29 Jul 2025 01:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.545409
- Title: From Sublinear to Linear: Fast Convergence in Deep Networks via Locally Polyak-Lojasiewicz Regions
- Title(参考訳): サブリニアから線形へ:局所的ポリアック・ロジャシエヴィチ地域を経由したディープネットワークの高速収束
- Authors: Agnideep Aich, Ashit Baran Aich, Bruce Wade,
- Abstract要約: 本稿では、ディープニューラルネットワーク(DNN)の非GD同値損失に関する理論的課題を示す。
準最適ギャップの勾配下界は、適切に有限幅のネットワークが L 内に二乗勾配を持つことを証明している。
我々の研究は、ディープラーニングの効率性の理論的な説明を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The convergence of gradient descent (GD) on the non-convex loss landscapes of deep neural networks (DNNs) presents a fundamental theoretical challenge. While recent work has established that GD converges to a stationary point at a sublinear rate within locally quasi-convex regions (LQCRs), this fails to explain the exponential convergence rates consistently observed in practice. In this paper, we resolve this discrepancy by proving that under a mild assumption on Neural Tangent Kernel (NTK) stability, these same regions satisfy a local Polyak-Lojasiewicz (PL) condition. We introduce the concept of a Locally Polyak-Lojasiewicz Region (LPLR), where the squared gradient norm lower-bounds the suboptimality gap, prove that properly initialized finite-width networks admit such regions around initialization, and establish that GD achieves linear convergence within an LPLR, providing the first finite-width guarantee that matches empirically observed rates. We validate our theory across diverse settings, from controlled experiments on fully-connected networks to modern ResNet architectures trained with stochastic methods, demonstrating that LPLR structure emerges robustly in practical deep learning scenarios. By rigorously connecting local landscape geometry to fast optimization through the NTK framework, our work provides a definitive theoretical explanation for the remarkable efficiency of gradient-based optimization in deep learning.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の非凸損失ランドスケープに対する勾配降下(GD)の収束は、根本的な理論的課題である。
近年の研究では、GDは局所準凸領域(LQCR)内の準線形速度で定常点に収束することが確認されているが、これは実際に一貫して観測される指数収束率を説明することに失敗している。
本稿では,ニューラル・タンジェント・カーネル(NTK)の安定性を軽度に仮定して,これらの領域が局所的なポリアック・ロジャシエヴィチ(PL)条件を満たすことを証明して,この相違を解消する。
局所ポリアック・ロジャシエヴィチ地域(LPLR)の概念を導入し、二乗勾配ノルムが準最適ギャップを低くし、適切な初期化有限幅ネットワークが初期化の周囲の領域を許容することを証明し、GDがLPLR内で線形収束し、経験的に観測された速度に一致する最初の有限幅保証を提供する。
我々は,完全に接続されたネットワーク上での制御実験から,確率的手法で訓練された現代のResNetアーキテクチャに至るまで,我々の理論を多種多様に検証し,実用的なディープラーニングシナリオにおいてLPLR構造が堅牢に現れることを示した。
NTKフレームワークを通じて局所地形幾何学と高速最適化を厳密に結合することにより、ディープラーニングにおける勾配に基づく最適化の顕著な効率に関する決定的な理論的説明を提供する。
関連論文リスト
- Local Stability and Region of Attraction Analysis for Neural Network Feedback Systems under Positivity Constraints [0.0]
フィードフォワードニューラルネットワーク(FFNN)により実現された静的非線形フィードバックを用いたLur'e形式の非線形システムの局所安定性について検討する。
正の系制約を利用することで、コンパクトな集合に制限された軌道の指数的安定性に十分な条件を与える Aizerman 予想の局所的変種を用いる。
論文 参考訳(メタデータ) (2025-05-28T21:45:49Z) - Convergence of Adam in Deep ReLU Networks via Directional Complexity and Kakeya Bounds [49.1574468325115]
Adamのような一階適応最適化手法は、現代のディープニューラルネットワークをトレーニングするためのデフォルトの選択肢である。
我々は,領域横断の制限を段階的に強化する多層改質フレームワークを開発した。
有効次元において,領域交差の数が指数的からほぼ直線的に崩壊することが証明された。
論文 参考訳(メタデータ) (2025-05-21T01:34:16Z) - A Local Polyak-Lojasiewicz and Descent Lemma of Gradient Descent For Overparametrized Linear Models [6.734175048463699]
正方形損失を学習した2層線形ニューラルネットワークの勾配降下に対する線形収束率を導出した。
我々の収束分析は、事前の結果を改善するだけでなく、ステップサイズに対するより良い選択を示唆している。
論文 参考訳(メタデータ) (2025-05-16T19:57:22Z) - An Infinite-Width Analysis on the Jacobian-Regularised Training of a Neural Network [10.384951432591492]
深部ニューラルネットワークの無限幅限界における最近の理論的分析により、ネットワークの初期化、特徴学習、トレーニングに対する理解が深まりました。
この無限幅解析は、ディープニューラルネットワークのヤコビアンにまで拡張可能であることを示す。
我々は、広い有限ネットワークに対する理論的主張の関連性を実験的に示し、核回帰解の性質を実験的に解析し、ヤコビアン正則化の洞察を得る。
論文 参考訳(メタデータ) (2023-12-06T09:52:18Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。