論文の概要: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- arxiv url: http://arxiv.org/abs/2402.11215v3
- Date: Tue, 28 May 2024 05:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 11:38:36.618897
- Title: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- Title(参考訳): AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes
- Authors: Tim Tsz-Kit Lau, Han Liu, Mladen Kolar,
- Abstract要約: 本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
- 参考スコア(独自算出の注目度): 17.043034606088234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of batch sizes in minibatch stochastic gradient optimizers is critical in large-scale model training for both optimization and generalization performance. Although large-batch training is arguably the dominant training paradigm for large-scale deep learning due to hardware advances, the generalization performance of the model deteriorates compared to small-batch training, leading to the so-called "generalization gap" phenomenon. To mitigate this, we investigate adaptive batch size strategies derived from adaptive sampling methods, originally developed only for stochastic gradient descent. Given the significant interplay between learning rates and batch sizes, and considering the prevalence of adaptive gradient methods in deep learning, we emphasize the need for adaptive batch size strategies in these contexts. We introduce AdAdaGrad and its scalar variant AdAdaGradNorm, which progressively increase batch sizes during training, while model updates are performed using AdaGrad and AdaGradNorm. We prove that AdAdaGradNorm converges with high probability at a rate of $\mathscr{O}(1/K)$ to find a first-order stationary point of smooth nonconvex functions within $K$ iterations. AdAdaGrad also demonstrates similar convergence properties when integrated with a novel coordinate-wise variant of our adaptive batch size strategies. We corroborate our theoretical claims by performing image classification experiments, highlighting the merits of the proposed schemes in terms of both training efficiency and model generalization. Our work unveils the potential of adaptive batch size strategies for adaptive gradient optimizers in large-scale model training.
- Abstract(参考訳): 最小バッチ確率勾配最適化器におけるバッチサイズの選択は、最適化と一般化性能の両方の大規模モデルトレーニングにおいて重要である。
大規模バッチ学習はハードウェアの進歩による大規模深層学習の主流の訓練パラダイムであることは間違いないが、このモデルの一般化性能は小バッチ学習と比較して低下し、いわゆる「一般化ギャップ」現象へと繋がる。
これを軽減するため,適応サンプリング法から得られた適応バッチサイズ戦略について検討した。
学習率とバッチサイズの間に大きな相互作用があり、深層学習における適応的勾配法の適用率を考慮すると、これらの文脈における適応的バッチサイズ戦略の必要性が強調される。
本稿では,AdAdaGradとそのスカラー変種AdAdaGradNormについて紹介する。
我々は、AdAdaGradNorm が $\mathscr{O}(1/K)$ の速度で高い確率で収束することを証明し、$K$反復の中で滑らかな非凸函数の1次定常点を求める。
AdAdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。
画像分類実験を行うことで理論的主張を裏付け、学習効率とモデル一般化の両面から提案したスキームの利点を強調した。
本研究は,大規模モデルトレーニングにおける適応的勾配最適化のための適応的バッチサイズ戦略の可能性を明らかにする。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Enhancing Generalization of Universal Adversarial Perturbation through
Gradient Aggregation [40.18851174642427]
深部ニューラルネットワークは普遍的逆境摂動(UAP)に脆弱である
本稿では,一般化の観点から,UAP生成手法の真剣なジレンマについて検討する。
グラディエント・アグリゲーション(SGA)と呼ばれるシンプルで効果的な手法を提案する。
SGAは勾配の消失を緩和し、局所最適度の低下から同時に逃れる。
論文 参考訳(メタデータ) (2023-08-11T08:44:58Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。