論文の概要: The Number of Steps Needed for Nonconvex Optimization of a Deep Learning
Optimizer is a Rational Function of Batch Size
- arxiv url: http://arxiv.org/abs/2108.11713v1
- Date: Thu, 26 Aug 2021 11:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:50:56.360522
- Title: The Number of Steps Needed for Nonconvex Optimization of a Deep Learning
Optimizer is a Rational Function of Batch Size
- Title(参考訳): ディープラーニング最適化器の非凸最適化に必要なステップ数とはバッチサイズの合理的関数である
- Authors: Hideaki Iiduka
- Abstract要約: 本報告では,非最適化に最適なバッチサイズが存在することを示す。
第二の事実は、モーメントAdamtypesが最適なバッチサイズを活用できるということです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, convergence as well as convergence rate analyses of deep learning
optimizers for nonconvex optimization have been widely studied. Meanwhile,
numerical evaluations for the optimizers have precisely clarified the
relationship between batch size and the number of steps needed for training
deep neural networks. The main contribution of this paper is to show
theoretically that the number of steps needed for nonconvex optimization of
each of the optimizers can be expressed as a rational function of batch size.
Having these rational functions leads to two particularly important facts,
which were validated numerically in previous studies. The first fact is that
there exists an optimal batch size such that the number of steps needed for
nonconvex optimization is minimized. This implies that using larger batch sizes
than the optimal batch size does not decrease the number of steps needed for
nonconvex optimization. The second fact is that the optimal batch size depends
on the optimizer. In particular, it is shown theoretically that momentum and
Adam-type optimizers can exploit larger optimal batches and further reduce the
minimum number of steps needed for nonconvex optimization than can the
stochastic gradient descent optimizer.
- Abstract(参考訳): 近年,非凸最適化のためのディープラーニングオプティマイザの収束と収束率解析が広く研究されている。
一方、最適化器の数値評価により、バッチサイズとディープニューラルネットワークのトレーニングに必要なステップ数との関係が明確になった。
本論文の主な貢献は、各最適化器の非凸最適化に必要なステップ数が、バッチサイズの有理関数として表現できることを理論的に示すことである。
これらの有理関数を持つことは、以前の研究で数値的に検証された2つの重要な事実に繋がる。
第一の事実は、非凸最適化に必要なステップの数を最小化する最適なバッチサイズが存在することである。
これは、最適なバッチサイズよりも大きなバッチサイズを使用することで、非凸最適化に必要なステップ数が減少しないことを意味する。
第二の事実は、最適なバッチサイズがオプティマイザに依存することである。
特に、モーメントとアダム型オプティマイザはより大きい最適バッチを利用して、確率勾配勾配最適化器よりも非凸最適化に必要な最小ステップ数を削減できることが理論的に示されている。
関連論文リスト
- Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Optimistic Optimization of Gaussian Process Samples [30.226274682578172]
競合する、計算的により効率的でグローバルな最適化フレームワークは楽観的な最適化であり、これは探索空間の幾何学に関する事前知識を相似関数として利用している。
幾何的探索と確率的探索の間には新たな研究領域があり、ベイズ最適化の重要な機能を保ちながら、従来のベイズ最適化よりも大幅に高速に実行される方法がある。
論文 参考訳(メタデータ) (2022-09-02T09:06:24Z) - Non-Convex Optimization with Certificates and Fast Rates Through Kernel
Sums of Squares [68.8204255655161]
非最適化近似問題を考える。
本稿では,最優先計算を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-11T09:37:04Z) - Two-step Lookahead Bayesian Optimization with Inequality Constraints [21.703234193908038]
本稿では,2段階の制約付きベイズ最適化獲得関数 (2-OPT-C) を提案する。
数値実験では、2-OPT-Cは従来の手法よりも2倍以上のクエリ効率が向上し、場合によっては10倍以上のクエリ効率が向上する。
論文 参考訳(メタデータ) (2021-12-06T07:40:54Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - An Efficient Batch Constrained Bayesian Optimization Approach for Analog
Circuit Synthesis via Multi-objective Acquisition Ensemble [11.64233949999656]
MACE(Multi-objective Acquisition Function Ensemble)を用いた並列化可能なベイズ最適化アルゴリズムを提案する。
提案アルゴリズムは,バッチサイズが15のときの非制約最適化問題に対する微分進化(DE)と比較して,シミュレーション全体の時間を最大74倍削減することができる。
制約付き最適化問題に対して,提案アルゴリズムは,バッチサイズが15の場合に,重み付き改善に基づくベイズ最適化(WEIBO)アプローチと比較して最大15倍の高速化を実現することができる。
論文 参考訳(メタデータ) (2021-06-28T13:21:28Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - A Primer on Zeroth-Order Optimization in Signal Processing and Machine
Learning [95.85269649177336]
ZO最適化は、勾配推定、降下方向、ソリューション更新の3つの主要なステップを反復的に実行する。
我々は,ブラックボックス深層学習モデルによる説明文の評価や生成,効率的なオンラインセンサ管理など,ZO最適化の有望な応用を実証する。
論文 参考訳(メタデータ) (2020-06-11T06:50:35Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。