論文の概要: Using Stochastic Gradient Descent to Smooth Nonconvex Functions:
Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling
- arxiv url: http://arxiv.org/abs/2311.08745v2
- Date: Fri, 24 Nov 2023 08:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 02:12:00.451890
- Title: Using Stochastic Gradient Descent to Smooth Nonconvex Functions:
Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling
- Title(参考訳): Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析
- Authors: Naoki Sato and Hideaki Iiduka
- Abstract要約: 本稿では、バッチ最適化の非ファミリー関数を定義する。
学習率の低下と学習規模の増加が、固定学習率よりも優れている理由に関する理論的洞察を提供する。
また、崩壊する学習率と増大するサイズを使用する、新しい累積バッチ最適化フレームワークも提供する。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The graduated optimization approach is a heuristic method for finding
globally optimal solutions for nonconvex functions and has been theoretically
analyzed in several studies. This paper defines a new family of nonconvex
functions for graduated optimization, discusses their sufficient conditions,
and provides a convergence analysis of the graduated optimization algorithm for
them. It shows that stochastic gradient descent (SGD) with mini-batch
stochastic gradients has the effect of smoothing the function, the degree of
which is determined by the learning rate and batch size. This finding provides
theoretical insights on why large batch sizes fall into sharp local minima, why
decaying learning rates and increasing batch sizes are superior to fixed
learning rates and batch sizes, and what the optimal learning rate scheduling
is. To the best of our knowledge, this is the first paper to provide a
theoretical explanation for these aspects. Moreover, a new graduated
optimization framework that uses a decaying learning rate and increasing batch
size is analyzed and experimental results of image classification that support
our theoretical findings are reported.
- Abstract(参考訳): 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。
本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。
その結果,ミニバッチ確率勾配を持つ確率勾配勾配(SGD)は,学習速度とバッチサイズによって決定される関数の平滑化効果を示すことがわかった。
この発見は、大規模なバッチサイズがシャープなローカルミニマに陥る理由、学習率の低下とバッチサイズの増加が、固定された学習率とバッチサイズよりも優れている理由、最適な学習率スケジューリングがどのようなものであるかに関する理論的洞察を提供する。
我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。
さらに, 劣化する学習率とバッチサイズを増大させる新たな段階最適化フレームワークを解析し, 理論的結果を支持する画像分類の実験結果について報告する。
関連論文リスト
- Dynamic Anisotropic Smoothing for Noisy Derivative-Free Optimization [0.0]
雑音のない微分自由最適化のための球平滑化法とガウス平滑化法を拡張した新しいアルゴリズムを提案する。
アルゴリズムはスムーズなカーネルの形状を動的に適応させ、局所最適関数の Hessian を近似する。
論文 参考訳(メタデータ) (2024-05-02T21:04:20Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Computing the Variance of Shuffling Stochastic Gradient Algorithms via
Power Spectral Density Analysis [6.497816402045099]
理論上の利点を持つ勾配降下(SGD)の2つの一般的な選択肢は、ランダムリシャッフル(SGDRR)とシャッフルオンス(SGD-SO)である。
本研究では,SGD,SGDRR,SGD-SOの定常変動について検討した。
論文 参考訳(メタデータ) (2022-06-01T17:08:04Z) - A Closed Loop Gradient Descent Algorithm applied to Rosenbrock's
function [0.0]
本稿では,非拘束慣性減衰の勾配降下アルゴリズムとして応用できる勾配系の新しい適応手法を提案する。
また、リアプノフ安定性解析を用いて、連続数値時間バージョンの性能を実証する。
論文 参考訳(メタデータ) (2021-08-29T17:25:24Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。