論文の概要: Nonconvex Stochastic Bregman Proximal Gradient Method with Application
to Deep Learning
- arxiv url: http://arxiv.org/abs/2306.14522v1
- Date: Mon, 26 Jun 2023 08:54:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:26:11.101634
- Title: Nonconvex Stochastic Bregman Proximal Gradient Method with Application
to Deep Learning
- Title(参考訳): nonconvex stochastic bregman proximal gradient methodとディープラーニングへの応用
- Authors: Kuangyu Ding, Jingyang Li and Kim-Chuan Toh
- Abstract要約: 微分可能部のスムーズな近似のみを必要とするBregman Bregman法(SBPG)の家系について検討する。
MSBPGは、計算において普遍的なオープンソースとして利用することができる。
- 参考スコア(独自算出の注目度): 6.807786746803371
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The widely used stochastic gradient methods for minimizing nonconvex
composite objective functions require the Lipschitz smoothness of the
differentiable part. But the requirement does not hold true for problem classes
including quadratic inverse problems and training neural networks. To address
this issue, we investigate a family of stochastic Bregman proximal gradient
(SBPG) methods, which only require smooth adaptivity of the differentiable
part. SBPG replaces the upper quadratic approximation used in SGD with the
Bregman proximity measure, resulting in a better approximation model that
captures the non-Lipschitz gradients of the nonconvex objective. We formulate
the vanilla SBPG and establish its convergence properties under nonconvex
setting without finite-sum structure. Experimental results on quadratic inverse
problems testify the robustness of SBPG. Moreover, we propose a momentum-based
version of SBPG (MSBPG) and prove it has improved convergence properties. We
apply MSBPG to the training of deep neural networks with a polynomial kernel
function, which ensures the smooth adaptivity of the loss function.
Experimental results on representative benchmarks demonstrate the effectiveness
and robustness of MSBPG in training neural networks. Since the additional
computation cost of MSBPG compared with SGD is negligible in large-scale
optimization, MSBPG can potentially be employed an universal open-source
optimizer in the future.
- Abstract(参考訳): 非凸合成目的関数を最小化するために広く用いられる確率勾配法は微分可能部のリプシッツ滑らかさを必要とする。
しかし、この要件は二次的逆問題やニューラルネットワークのトレーニングを含む問題クラスには当てはまらない。
本研究では, 微分可能な部分の滑らかな適応性のみを必要とする確率的ブラッグマン近位勾配 (sbpg) 法について検討する。
SBPGは、SGDで用いられる上二次近似をブレグマン近接測度に置き換え、非凸目的の非リプシッツ勾配を捕捉するより良い近似モデルをもたらす。
バニラ SBPG を定式化し、有限サム構造を持たない非凸条件下で収束特性を確立する。
SBPGのロバスト性を証明する二次逆問題の実験結果。
さらに, SBPG (MSBPG) の運動量に基づくバージョンを提案し, 収束性の向上を証明した。
我々は、損失関数のスムーズな適応性を保証する多項式カーネル関数を持つディープニューラルネットワークのトレーニングにMSBPGを適用した。
代表ベンチマーク実験の結果, ニューラルネットワークにおけるmsbpgの有効性とロバスト性が示された。
SGDと比較してMSBPGのさらなる計算コストは大規模最適化では無視できないため、将来的にはユニバーサルなオープンソースオプティマイザが採用される可能性がある。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Stochastic Inexact Augmented Lagrangian Method for Nonconvex Expectation
Constrained Optimization [88.0031283949404]
多くの実世界の問題は複雑な非機能的制約を持ち、多くのデータポイントを使用する。
提案手法は,従来最もよく知られた結果で既存手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-19T14:48:54Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - A Retrospective Approximation Approach for Smooth Stochastic
Optimization [0.2867517731896504]
グラディエント(グラディエント、英: Gradient、SG)とは、最適化(SO)問題をスムーズ(ノンフィクション)な目標値で解くための補足的反復手法である。
論文 参考訳(メタデータ) (2021-03-07T16:29:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。