論文の概要: Adaptive Learning of the Optimal Batch Size of SGD
- arxiv url: http://arxiv.org/abs/2005.01097v2
- Date: Fri, 19 Nov 2021 18:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:23:34.975001
- Title: Adaptive Learning of the Optimal Batch Size of SGD
- Title(参考訳): sgdの最適バッチサイズに関する適応学習
- Authors: Motasem Alfarra, Slavomir Hanzely, Alyazeed Albasyoni, Bernard Ghanem
and Peter Richtarik
- Abstract要約: 本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
- 参考スコア(独自算出の注目度): 52.50880550357175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in the theoretical understanding of SGD led to a formula for
the optimal batch size minimizing the number of effective data passes, i.e.,
the number of iterations times the batch size. However, this formula is of no
practical value as it depends on the knowledge of the variance of the
stochastic gradients evaluated at the optimum. In this paper we design a
practical SGD method capable of learning the optimal batch size adaptively
throughout its iterations for strongly convex and smooth functions. Our method
does this provably, and in our experiments with synthetic and real data
robustly exhibits nearly optimal behaviour; that is, it works as if the optimal
batch size was known a-priori. Further, we generalize our method to several new
batch strategies not considered in the literature before, including a sampling
suitable for distributed implementations.
- Abstract(参考訳): 近年のsgdの理論的理解の進歩により、効率的なデータパス数、すなわちバッチサイズ倍のイテレーション数を最小化する最適なバッチサイズの公式が導かれた。
しかし、この公式は最適で評価された確率勾配の分散の知識に依存するので実用的価値はない。
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな機能を実現するための実用的なSGD手法を設計する。
提案手法は実現可能であり, 合成および実データを用いた実験では, ほぼ最適挙動がロバストに示され, 最適なバッチサイズがa-prioriとして知られるように動作する。
さらに,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
関連論文リスト
- Derivative-Free Optimization via Finite Difference Approximation: An Experimental Study [1.3886390523644807]
微分自由最適化(DFO)は、関数評価のみをオラクルで利用できるような複雑な最適化問題の解決に不可欠である。
2つの古典的なイテレーションアプローチは、Kiefer-Wolfowitz (KW) と同時摂動近似 (SPSA) アルゴリズムである。
本稿では,これらの手法の総合的な比較実験を行う。
論文 参考訳(メタデータ) (2024-10-31T18:07:44Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。
これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文 参考訳(メタデータ) (2024-04-16T20:01:10Z) - An Adaptive Dimension Reduction Estimation Method for High-dimensional
Bayesian Optimization [6.79843988450982]
BOを高次元設定に拡張するための2段階最適化フレームワークを提案する。
私たちのアルゴリズムは、これらのステップを並列またはシーケンスで操作する柔軟性を提供します。
数値実験により,困難シナリオにおける本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-03-08T16:21:08Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。