論文の概要: Extended convexity and smoothness and their applications in deep learning
- arxiv url: http://arxiv.org/abs/2410.05807v1
- Date: Tue, 8 Oct 2024 08:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 12:39:56.701555
- Title: Extended convexity and smoothness and their applications in deep learning
- Title(参考訳): 拡張凸性・滑らか性とそのディープラーニングへの応用
- Authors: Binchuan Qi,
- Abstract要約: 本稿では,非完全に理解された勾配と強い凸性に対する$mathcal$H$smoothnessアルゴリズムを提案する。
提案手法の有効性を実験により検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The underlying mechanism by which simple gradient-based iterative algorithms can effectively handle the non-convex problem of deep model training remains incompletely understood within the traditional convex and non-convex analysis frameworks, which often require the Lipschitz smoothness of the gradient and strong convexity. In this paper, we introduce $\mathcal{H}(\phi)$-convexity and $\mathcal{H}(\Phi)$-smoothness, which broaden the existing concepts of smoothness and convexity, and delineate their fundamental properties. Building on these concepts, we introduce the high-order gradient descent and high-order stochastic gradient descent methods, which serve as extensions to the traditional gradient descent and stochastic gradient descent methods, respectively. Furthermore, we establish descent lemmas for the $\mathcal{H}(\phi)$-convex and $\mathcal{H}(\Phi)$-smooth objective functions when utilizing these four methods. On the basis of these findings, we develop the gradient structure control algorithm to address non-convex optimization objectives, encompassing both the functions represented by machine learning models and common loss functions in deep learning. The effectiveness of the proposed methodology is empirically validated through experiments.
- Abstract(参考訳): 単純な勾配に基づく反復アルゴリズムがディープモデルトレーニングの非凸問題に効果的に対処できるメカニズムは、しばしば勾配のリプシッツ滑らかさと強い凸性を必要とする伝統的な凸および非凸解析フレームワークの中で不完全に理解されている。
本稿では,既存の滑らかさと凸性の概念を広くし,それらの基本的な性質を記述した $\mathcal{H}(\phi)$-convexity と $\mathcal{H}(\Phi)$-smoothness を紹介する。
これらの概念に基づいて,従来の勾配勾配法および確率勾配法の拡張として機能する,高次勾配勾配法と高次確率勾配法を導入する。
さらに、これらの4つの方法を利用する際に、 $\mathcal{H}(\phi)$-convex と $\mathcal{H}(\Phi)$-smooth 目的関数の降下補題を確立する。
これらの結果に基づいて,機械学習モデルで表現される関数とディープラーニングにおける共通損失関数の両方を包含し,非凸最適化目的に対処する勾配構造制御アルゴリズムを開発した。
提案手法の有効性は実験によって実証的に検証される。
関連論文リスト
- Towards Understanding the Optimization Mechanisms in Deep Learning [5.281849820329249]
本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。
後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
論文 参考訳(メタデータ) (2025-03-29T08:46:13Z) - Early-Stopped Mirror Descent for Linear Regression over Convex Bodies [14.30754799752932]
加法的ガウス雑音下での高次元線形回帰の設定について検討する。
その結果,未拘束の早期停止ミラー降下の最悪のリスクは,少なくとも凸体に拘束される最小2乗推定器のリスクであることがわかった。
論文 参考訳(メタデータ) (2025-03-05T11:59:31Z) - Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。
また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文 参考訳(メタデータ) (2025-02-27T11:29:43Z) - Methods with Local Steps and Random Reshuffling for Generally Smooth Non-Convex Federated Optimization [52.61737731453222]
非マシーン学習問題は通常、標準的な滑らかさの仮定に従わない。
本稿では,ローカルステップ,クライアントの部分的参加,ランダムランダムリシャッフルによる新しい手法の提案と解析を行う。
我々の理論は、標準的な滑らかな問題に対する既知の結果と一致している。
論文 参考訳(メタデータ) (2024-12-03T19:20:56Z) - Towards Sharper Risk Bounds for Minimax Problems [23.380477456114118]
ミニマックス問題は、敵対的、堅牢な最適化、強化学習といった機械学習で成功している。
理論解析では、現在の最適余剰リスク境界は一般化誤差と強強コンケーブ(SC-SC)における1/nレートによって構成される。
我々は、経験的サドル点(GDA)、勾配降下(DA)、勾配降下(SG)などの一般的なアルゴリズムを分析する。
ミニマックス問題の結果より n 倍早く導出する。
論文 参考訳(メタデータ) (2024-10-11T03:50:23Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。
本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文 参考訳(メタデータ) (2023-06-16T11:30:55Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Stability and Generalization of Stochastic Optimization with Nonconvex
and Nonsmooth Problems [34.68590236021379]
本稿では,アルゴリズム的安定度と定量的勾配と人口間のギャップについて述べる。
これらのアルゴリズムを、暗黙の規則的な反復ステップサイズと適応勾配勾配を達成するためにどのように適用するかを示す。
論文 参考訳(メタデータ) (2022-06-14T18:14:30Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。
合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T11:31:08Z) - Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。
実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文 参考訳(メタデータ) (2020-10-05T14:36:59Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。