Fugu-MT 論文翻訳(概要): Extended convexity and smoothness and their applications in deep learning

論文の概要: Extended convexity and smoothness and their applications in deep learning

arxiv url: http://arxiv.org/abs/2410.05807v2
Date: Wed, 15 Jan 2025 09:53:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-16 16:46:28.150948
Title: Extended convexity and smoothness and their applications in deep learning
Title（参考訳）: 拡張凸性・滑らか性とそのディープラーニングへの応用
Authors: Binchuan Qi, Wei Gong, Li Li,
Abstract要約: 本稿では,複合最適化問題のクラス,特にディープラーニングにおける理論的基礎を提供するための最適化フレームワークを提案する。我々は、$mathcalH(Phi)$-smoothness である対象関数に対するリプシッツの降下法と降下法の滑らかさを解析する。
参考スコア（独自算出の注目度）: 5.281849820329249
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces an optimization framework aimed at providing a theoretical foundation for a class of composite optimization problems, particularly those encountered in deep learning. In this framework, we introduce $\mathcal{H}(\phi)$-convexity and $\mathcal{H}(\Phi)$-smoothness to generalize the existing concepts of Lipschitz smoothness and strong convexity. Furthermore, we analyze and establish the convergence of both gradient descent and stochastic gradient descent methods for objective functions that are $\mathcal{H}(\Phi)$-smooth. We prove that the optimal convergence rates of these methods depend solely on the homogeneous degree of $\Phi$. Based on these findings, we construct two types of non-convex and non-smooth optimization problems: deterministic composite and stochastic composite optimization problems, which encompass the majority of optimization problems in deep learning. To address these problems, we develop the gradient structure control algorithm and prove that it can locate approximate global optima. This marks a significant departure from traditional non-convex analysis framework, which typically settle for stationary points. Therefore, with the introduction of $\mathcal{H}(\phi)$-convexity and $\mathcal{H}(\Phi)$-smoothness, along with the GSC algorithm, the non-convex optimization mechanisms in deep learning can be theoretically explained and supported. Finally, the effectiveness of the proposed framework is substantiated through empirical experimentation.
Abstract（参考訳）: 本稿では,複合最適化問題,特にディープラーニングで遭遇した問題に対する理論的基礎を提供するための最適化フレームワークを提案する。このフレームワークでは、既存のリプシッツの滑らかさと強い凸性の概念を一般化するために、$\mathcal{H}(\phi)$-凸性と$\mathcal{H}(\Phi)$-滑らかさを導入する。さらに, $\mathcal{H}(\Phi)$-smooth の目的関数に対する勾配降下法と確率勾配降下法の両方の収束を解析・確立する。これらの手法の最適収束率は、$\Phi$の等質次数のみに依存することを証明している。これらの結果から,非凸・非滑らかな最適化問題として,決定論的合成問題と確率論的合成最適化問題という,ディープラーニングにおける最適化問題の大部分を含む2種類の非凸・非滑らかな最適化問題を構築した。これらの問題に対処するため、勾配構造制御アルゴリズムを開発し、大域的最適度を近似できることを示す。これは従来の非凸解析フレームワークから大きく離れており、通常は静止点に落ち着く。したがって、GSCアルゴリズムとともに、$\mathcal{H}(\phi)$-convexityと$\mathcal{H}(\Phi)$-smoothnessを導入することにより、ディープラーニングにおける非凸最適化機構を理論的に説明し、支持することができる。最後に,提案手法の有効性を実証実験により検証した。

関連論文リスト

Towards Understanding the Optimization Mechanisms in Deep Learning [5.281849820329249]
本稿では,ディープニューラルネットワークを用いた教師付き分類のメカニズムを探るため,分布推定の観点を採用する。後者では、オーバー・アンド・確率ランダム化のようなメカニズムに関する理論的洞察を提供する。
論文参考訳（メタデータ） (2025-03-29T08:46:13Z)
Early-Stopped Mirror Descent for Linear Regression over Convex Bodies [14.30754799752932]
加法的ガウス雑音下での高次元線形回帰の設定について検討する。その結果,未拘束の早期停止ミラー降下の最悪のリスクは,少なくとも凸体に拘束される最小2乗推定器のリスクであることがわかった。
論文参考訳（メタデータ） (2025-03-05T11:59:31Z)
Asymptotics of Non-Convex Generalized Linear Models in High-Dimensions: A proof of the replica formula [17.036996839737828]
非次元ガウス正規化モデルの最適性を証明するために,アルゴリズムをどのように利用できるかを示す。また, 負の正則化モデルの最適性を証明するために, テューキー損失を用いる方法を示す。
論文参考訳（メタデータ） (2025-02-27T11:29:43Z)
Methods with Local Steps and Random Reshuffling for Generally Smooth Non-Convex Federated Optimization [52.61737731453222]
非マシーン学習問題は通常、標準的な滑らかさの仮定に従わない。本稿では,ローカルステップ,クライアントの部分的参加,ランダムランダムリシャッフルによる新しい手法の提案と解析を行う。我々の理論は、標準的な滑らかな問題に対する既知の結果と一致している。
論文参考訳（メタデータ） (2024-12-03T19:20:56Z)
Towards Sharper Risk Bounds for Minimax Problems [23.380477456114118]
ミニマックス問題は、敵対的、堅牢な最適化、強化学習といった機械学習で成功している。理論解析では、現在の最適余剰リスク境界は一般化誤差と強強コンケーブ(SC-SC)における1/nレートによって構成される。我々は、経験的サドル点(GDA)、勾配降下(DA)、勾配降下(SG)などの一般的なアルゴリズムを分析する。ミニマックス問題の結果より n 倍早く導出する。
論文参考訳（メタデータ） (2024-10-11T03:50:23Z)
On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文参考訳（メタデータ） (2023-12-13T02:11:07Z)
Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。本稿では,直感的に設計を記述し,設計選択について説明する。本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文参考訳（メタデータ） (2023-10-31T16:15:13Z)
Gradient is All You Need? [0.0]
本稿では、コンセンサスに基づく勾配最適化(CBO)の解釈による学習アルゴリズムの理論的理解に関する新しい分析的視点を提供する。本研究は,非局所景観関数の複雑さを軽減するため,CBOの本質的な能力を証明するものである。
論文参考訳（メタデータ） (2023-06-16T11:30:55Z)
Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文参考訳（メタデータ） (2023-06-02T04:21:59Z)
Stability and Generalization Analysis of Gradient Methods for Shallow Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文参考訳（メタデータ） (2022-09-19T18:48:00Z)
Stability and Generalization of Stochastic Optimization with Nonconvex and Nonsmooth Problems [34.68590236021379]
本稿では,アルゴリズム的安定度と定量的勾配と人口間のギャップについて述べる。これらのアルゴリズムを、暗黙の規則的な反復ステップサイズと適応勾配勾配を達成するためにどのように適用するかを示す。
論文参考訳（メタデータ） (2022-06-14T18:14:30Z)
Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文参考訳（メタデータ） (2021-05-13T04:23:07Z)
Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。我々はこれらの現象を具体的原理で補うと推測する。
論文参考訳（メタデータ） (2021-03-16T16:26:36Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
Learning Fast Approximations of Sparse Nonlinear Regression [50.00693981886832]
本研究では,Threshold Learned Iterative Shrinkage Algorithming (NLISTA)を導入することでギャップを埋める。合成データを用いた実験は理論結果と相関し,その手法が最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2020-10-26T11:31:08Z)
Improved Analysis of Clipping Algorithms for Non-convex Optimization [19.507750439784605]
最近、citetzhang 2019gradient show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD。実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。
論文参考訳（メタデータ） (2020-10-05T14:36:59Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。