論文の概要: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- arxiv url: http://arxiv.org/abs/2402.11215v1
- Date: Sat, 17 Feb 2024 07:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:36:03.611383
- Title: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- Title(参考訳): AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes
- Authors: Tim Tsz-Kit Lau, Han Liu, Mladen Kolar
- Abstract要約: 適応型サンプリング法から導いた適応型サイズ戦略について検討する。
AdaNormは、最初の非順序定常点を見つけるために$mathscrO (1/K)$の速度で高い確率で収束する。
AdaGradはまた、適応バッチサイズ戦略の勾配変化と統合した場合、同様の収束特性を示す。
- 参考スコア(独自算出の注目度): 19.154662931738827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of batch sizes in stochastic gradient optimizers is critical for
model training. However, the practice of varying batch sizes throughout the
training process is less explored compared to other hyperparameters. We
investigate adaptive batch size strategies derived from adaptive sampling
methods, traditionally applied only in stochastic gradient descent. Given the
significant interplay between learning rates and batch sizes, and considering
the prevalence of adaptive gradient methods in deep learning, we emphasize the
need for adaptive batch size strategies in these contexts. We introduce
AdAdaGrad and its scalar variant AdAdaGradNorm, which incrementally increase
batch sizes during training, while model updates are performed using AdaGrad
and AdaGradNorm. We prove that AdaGradNorm converges with high probability at a
rate of $\mathscr{O}(1/K)$ for finding a first-order stationary point of smooth
nonconvex functions within $K$ iterations. AdaGrad also demonstrates similar
convergence properties when integrated with a novel coordinate-wise variant of
our adaptive batch size strategies. Our theoretical claims are supported by
numerical experiments on various image classification tasks, highlighting the
enhanced adaptability of progressive batching protocols in deep learning and
the potential of such adaptive batch size strategies with adaptive gradient
optimizers in large-scale model training.
- Abstract(参考訳): 確率的勾配オプティマイザにおけるバッチサイズの選択はモデルトレーニングに不可欠である。
しかしながら、トレーニングプロセス全体でのバッチサイズの変化の実践は、他のハイパーパラメータと比べて、あまり調査されていない。
従来は確率的勾配降下にのみ適用されていた適応的サンプリング法に基づく適応的バッチサイズ戦略について検討した。
学習率とバッチサイズの間に有意な相互作用があり、ディープラーニングにおける適応勾配法の普及を考えると、これらの文脈における適応的バッチサイズ戦略の必要性を強調する。
本稿では、AdAdaGradとそのスカラー変種AdAdaGradNormを紹介し、トレーニング中のバッチサイズを漸進的に増加させ、モデル更新はAdaGradとAdaGradNormを使用して行う。
adagradnorm は $k$ の反復内で滑らかな非凸関数の1次定常点を見つけるために $\mathscr{o}(1/k)$ で高い確率で収束する。
AdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。
この理論的な主張は,様々な画像分類タスクにおける数値実験によって支持されており,ディープラーニングにおけるプログレッシブバッチプロトコルの適応性の向上と,大規模モデルトレーニングにおける適応勾配最適化を用いた適応バッチサイズ戦略の可能性に注目している。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size [42.84471753630676]
本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。
適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。
適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
論文 参考訳(メタデータ) (2024-02-07T21:19:05Z) - Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent [0.41104247065851574]
本稿では,勾配降下(SGD)における適応ステップサイズに対する新しいアプローチを提案する。
我々は、勾配に対するリプシッツ定数と探索方向の局所的分散の概念という、数値的にトレース可能な量を用いる。
論文 参考訳(メタデータ) (2023-11-28T17:03:56Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - AI-SARAH: Adaptive and Implicit Stochastic Recursive Gradient Methods [7.486132958737807]
適応性に対する暗黙的アプローチによる適応分散低減手法を提案する。
有限サム最小化問題に対する収束保証を提供し,局所幾何が許せばサラよりも高速に収束できることを示す。
このアルゴリズムはステップサイズを暗黙的に計算し、関数の局所リプシッツ滑らかさを効率的に推定する。
論文 参考訳(メタデータ) (2021-02-19T01:17:15Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。