論文の概要: A General Family of Stochastic Proximal Gradient Methods for Deep
Learning
- arxiv url: http://arxiv.org/abs/2007.07484v1
- Date: Wed, 15 Jul 2020 05:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:29:36.218677
- Title: A General Family of Stochastic Proximal Gradient Methods for Deep
Learning
- Title(参考訳): 深層学習のための確率的近似勾配法の一家系
- Authors: Jihun Yun, Aurelie C. Lozano, Eunho Yang
- Abstract要約: 本稿では、任意の正凸器と半連続正則化器を利用できる近位勾配降下のための統一的なフレームワークを提案する。
本稿では, ProxGenの収束を解析し, プレコンディショナーを使わずに, ProxGenの全ファミリーが勾配近位降下と同じ収束率を持つことを示す。
- 参考スコア(独自算出の注目度): 32.8887001526983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the training of regularized neural networks where the regularizer
can be non-smooth and non-convex. We propose a unified framework for stochastic
proximal gradient descent, which we term ProxGen, that allows for arbitrary
positive preconditioners and lower semi-continuous regularizers. Our framework
encompasses standard stochastic proximal gradient methods without
preconditioners as special cases, which have been extensively studied in
various settings. Not only that, we present two important update rules beyond
the well-known standard methods as a byproduct of our approach: (i) the first
closed-form proximal mappings of $\ell_q$ regularization ($0 \leq q \leq 1$)
for adaptive stochastic gradient methods, and (ii) a revised version of
ProxQuant that fixes a caveat of the original approach for
quantization-specific regularizers. We analyze the convergence of ProxGen and
show that the whole family of ProxGen enjoys the same convergence rate as
stochastic proximal gradient descent without preconditioners. We also
empirically show the superiority of proximal methods compared to
subgradient-based approaches via extensive experiments. Interestingly, our
results indicate that proximal methods with non-convex regularizers are more
effective than those with convex regularizers.
- Abstract(参考訳): 我々は正規化ニューラルネットワークのトレーニングについて検討し、正規化器は非滑らかで非凸であることを示す。
本稿では,任意の正の事前条件と半連続正則化器を許容する確率的近位勾配降下のための統一的フレームワークProxGenを提案する。
本フレームワークは, プレコンディショナーを含まない標準的な確率的近位勾配法を特例とし, 様々な場面で広く研究されている。
それだけでなく、私たちのアプローチの副産物として、よく知られた標準メソッド以外の2つの重要な更新ルールを提示します。
(i)適応確率勾配法に対する$\ell_q$正則化(0 \leq q \leq 1$)の最初の閉形式近位写像、および
(ii) 量子化特化正規化器に対する元のアプローチの注意点を修正するProxQuantの改訂版。
本稿では, ProxGenの収束を解析し, プレコンディショナーを使わずに確率的近位勾配降下と同じ収束率を持つことを示す。
また, 広範囲な実験により, 漸進的アプローチと比較して, 近似手法の優位性を実証的に示す。
その結果,非凸正則化器を用いた近位法の方が凸正則化器よりも有効であることが示唆された。
関連論文リスト
- Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - On the Stochastic (Variance-Reduced) Proximal Gradient Method for Regularized Expected Reward Optimization [10.36447258513813]
我々は、強化学習(RL)における既存の問題の多くを網羅する非文献設定における正規化期待報酬最適化問題を考える。
特に、標準条件下では、$O(epsilon-4)$サンプルを$epsilon$-stationaryポイントに含めることが示されている。
分析の結果,サンプルの複雑さは,追加条件下では$O(epsilon-4)$から$O(epsilon-3)$に改善できることがわかった。
論文 参考訳(メタデータ) (2024-01-23T06:01:29Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - Convex and Non-convex Optimization Under Generalized Smoothness [69.69521650503431]
凸法と非最適化法の分析は、しばしばリプシッツ勾配を必要とし、この軌道による解析を制限する。
最近の研究は、非一様滑らか性条件を通した勾配設定を一般化している。
論文 参考訳(メタデータ) (2023-06-02T04:21:59Z) - Some Primal-Dual Theory for Subgradient Methods for Strongly Convex Optimization [0.0]
我々は、強く凸するが、潜在的に非滑らかな非Lipschitz最適化のための段階的手法を考える。
本稿では,古典的下位段階法,近位下位段階法,スイッチング下位段階法に対する等価な2値記述について述べる。
論文 参考訳(メタデータ) (2023-05-27T01:56:09Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - A Unified Convergence Analysis for Shuffling-Type Gradient Methods [32.8097849940763]
有限項問題を解くための一般化勾配シャッフル型法に対する統一収束解析を提案する。
以上の結果から,特定の神経シャッフル変種でのトレーニングに適する選択が示唆された。
論文 参考訳(メタデータ) (2020-02-19T15:45:41Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。