論文の概要: Extended convexity and smoothness and their applications in deep learning
- arxiv url: http://arxiv.org/abs/2410.05807v3
- Date: Wed, 30 Apr 2025 04:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.077979
- Title: Extended convexity and smoothness and their applications in deep learning
- Title(参考訳): 拡張凸性・滑らか性とそのディープラーニングへの応用
- Authors: Binchuan Qi, Wei Gong, Li Li,
- Abstract要約: 本稿では,ディープラーニングにおける非滑らかな最適化のメカニズムを明らかにすることを目的とする。
解析の結果、勾配降下法(SGD)アルゴリズムは経験的リスクを効果的に最小化できることが示された。
- 参考スコア(独自算出の注目度): 5.281849820329249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical assumptions like strong convexity and Lipschitz smoothness often fail to capture the nature of deep learning optimization problems, which are typically non-convex and non-smooth, making traditional analyses less applicable. This study aims to elucidate the mechanisms of non-convex optimization in deep learning by extending the conventional notions of strong convexity and Lipschitz smoothness. By leveraging these concepts, we prove that, under the established constraints, the empirical risk minimization problem is equivalent to optimizing the local gradient norm and structural error, which together constitute the upper and lower bounds of the empirical risk. Furthermore, our analysis demonstrates that the stochastic gradient descent (SGD) algorithm can effectively minimize the local gradient norm. Additionally, techniques like skip connections, over-parameterization, and random parameter initialization are shown to help control the structural error. Ultimately, we validate the core conclusions of this paper through extensive experiments. Theoretical analysis and experimental results indicate that our findings provide new insights into the mechanisms of non-convex optimization in deep learning.
- Abstract(参考訳): 強い凸性やリプシッツの滑らかさのような古典的な仮定は、通常非凸で非滑らかなディープラーニング最適化問題の性質を捉えることができず、伝統的な解析は適用できない。
本研究では,従来の強い凸性やリプシッツの滑らかさという概念を拡張して,ディープラーニングにおける非凸最適化のメカニズムを明らかにすることを目的とする。
これらの概念を活用することで、確立された制約の下で、経験的リスク最小化問題は、経験的リスクの上と下の境界を構成する局所的勾配ノルムと構造的エラーの最適化と等価であることを示す。
さらに,確率勾配勾配(SGD)アルゴリズムは局所勾配ノルムを効果的に最小化できることを示す。
さらに、スキップ接続、オーバーパラメータ化、ランダムパラメータ初期化といったテクニックが構造的エラーを制御するのに役立ちます。
最終的に、広範囲な実験を通して、本論文の中核的な結論を検証した。
理論的解析と実験結果から,ディープラーニングにおける非凸最適化のメカニズムに関する新たな知見が得られたことが示唆された。
関連論文リスト
- Towards Understanding the Optimization Mechanisms in Deep Learning [5.281849820329249]
本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。
後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-03-29T08:46:13Z) - Early-Stopped Mirror Descent for Linear Regression over Convex Bodies [14.30754799752932]
加法的ガウス雑音下での高次元線形回帰の設定について検討する。
その結果,未拘束の早期停止ミラー降下の最悪のリスクは,少なくとも凸体に拘束される最小2乗推定器のリスクであることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:59:31Z) - Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。
また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文 参考訳(メタデータ) (2025-02-27T11:29:43Z) - Methods with Local Steps and Random Reshuffling for Generally Smooth Non-Convex Federated Optimization [52.61737731453222]
非マシーン学習問題は通常、標準的な滑らかさの仮定に従わない。
本稿では,ローカルステップ,クライアントの部分的参加,ランダムランダムリシャッフルによる新しい手法の提案と解析を行う。
我々の理論は、標準的な滑らかな問題に対する既知の結果と一致している。
論文 参考訳(メタデータ) (2024-12-03T19:20:56Z) - Towards Sharper Risk Bounds for Minimax Problems [23.380477456114118]
ミニマックス問題は、敵対的、堅牢な最適化、強化学習といった機械学習で成功している。
理論解析では、現在の最適余剰リスク境界は一般化誤差と強強コンケーブ(SC-SC)における1/nレートによって構成される。
我々は、経験的サドル点(GDA)、勾配降下(DA)、勾配降下(SG)などの一般的なアルゴリズムを分析する。
ミニマックス問題の結果より n 倍早く導出する。
論文 参考訳(メタデータ) (2024-10-11T03:50:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Stability and Generalization of Stochastic Optimization with Nonconvex
and Nonsmooth Problems [34.68590236021379]
本稿では,アルゴリズム的安定度と定量的勾配と人口間のギャップについて述べる。
これらのアルゴリズムを、暗黙の規則的な反復ステップサイズと適応勾配勾配を達成するためにどのように適用するかを示す。
論文 参考訳(メタデータ) (2022-06-14T18:14:30Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。