論文の概要: Using Stochastic Gradient Descent to Smooth Nonconvex Functions:
Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling
- arxiv url: http://arxiv.org/abs/2311.08745v3
- Date: Wed, 29 Nov 2023 03:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 03:00:16.146802
- Title: Using Stochastic Gradient Descent to Smooth Nonconvex Functions:
Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling
- Title(参考訳): Smooth Nonconvex関数に対する確率勾配勾配を用いた最適雑音スケジューリングによる帰納的逐次最適化の解析
- Authors: Naoki Sato and Hideaki Iiduka
- Abstract要約: 本稿では、バッチ最適化の非ファミリー関数を定義する。
学習率の低下と学習規模の増加が、固定学習率よりも優れている理由に関する理論的洞察を提供する。
また、崩壊する学習率と増大するサイズを使用する、新しい累積バッチ最適化フレームワークも提供する。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The graduated optimization approach is a heuristic method for finding
globally optimal solutions for nonconvex functions and has been theoretically
analyzed in several studies. This paper defines a new family of nonconvex
functions for graduated optimization, discusses their sufficient conditions,
and provides a convergence analysis of the graduated optimization algorithm for
them. It shows that stochastic gradient descent (SGD) with mini-batch
stochastic gradients has the effect of smoothing the function, the degree of
which is determined by the learning rate and batch size. This finding provides
theoretical insights on why large batch sizes fall into sharp local minima, why
decaying learning rates and increasing batch sizes are superior to fixed
learning rates and batch sizes, and what the optimal learning rate scheduling
is. To the best of our knowledge, this is the first paper to provide a
theoretical explanation for these aspects. Moreover, a new graduated
optimization framework that uses a decaying learning rate and increasing batch
size is analyzed and experimental results of image classification that support
our theoretical findings are reported.
- Abstract(参考訳): 漸進最適化手法は非凸関数に対する大域的最適解を求めるヒューリスティック手法であり、いくつかの研究で理論的に解析されている。
本稿では,非凸関数群を新たに定義し,それらの条件について考察し,それらの最適化アルゴリズムの収束解析を行う。
その結果,ミニバッチ確率勾配を持つ確率勾配勾配(SGD)は,学習速度とバッチサイズによって決定される関数の平滑化効果を示すことがわかった。
この発見は、大規模なバッチサイズがシャープなローカルミニマに陥る理由、学習率の低下とバッチサイズの増加が、固定された学習率とバッチサイズよりも優れている理由、最適な学習率スケジューリングがどのようなものであるかに関する理論的洞察を提供する。
我々の知る限りでは、これらの側面に関する理論的説明を提供する最初の論文である。
さらに, 劣化する学習率とバッチサイズを増大させる新たな段階最適化フレームワークを解析し, 理論的結果を支持する画像分類の実験結果について報告する。
関連論文リスト
- Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - High Probability Analysis for Non-Convex Stochastic Optimization with
Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。
ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。
我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文 参考訳(メタデータ) (2023-07-25T17:36:56Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - An adaptive stochastic gradient-free approach for high-dimensional
blackbox optimization [0.0]
本研究では,高次元非平滑化問題に対する適応勾配フリー (ASGF) アプローチを提案する。
本稿では,グローバルな問題と学習タスクのベンチマークにおいて,本手法の性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T22:47:58Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。