論文の概要: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- arxiv url: http://arxiv.org/abs/2402.11215v1
- Date: Sat, 17 Feb 2024 07:49:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:36:03.611383
- Title: AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods
- Title(参考訳): AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes
- Authors: Tim Tsz-Kit Lau, Han Liu, Mladen Kolar
- Abstract要約: 適応型サンプリング法から導いた適応型サイズ戦略について検討する。
AdaNormは、最初の非順序定常点を見つけるために$mathscrO (1/K)$の速度で高い確率で収束する。
AdaGradはまた、適応バッチサイズ戦略の勾配変化と統合した場合、同様の収束特性を示す。
- 参考スコア(独自算出の注目度): 19.154662931738827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The choice of batch sizes in stochastic gradient optimizers is critical for
model training. However, the practice of varying batch sizes throughout the
training process is less explored compared to other hyperparameters. We
investigate adaptive batch size strategies derived from adaptive sampling
methods, traditionally applied only in stochastic gradient descent. Given the
significant interplay between learning rates and batch sizes, and considering
the prevalence of adaptive gradient methods in deep learning, we emphasize the
need for adaptive batch size strategies in these contexts. We introduce
AdAdaGrad and its scalar variant AdAdaGradNorm, which incrementally increase
batch sizes during training, while model updates are performed using AdaGrad
and AdaGradNorm. We prove that AdaGradNorm converges with high probability at a
rate of $\mathscr{O}(1/K)$ for finding a first-order stationary point of smooth
nonconvex functions within $K$ iterations. AdaGrad also demonstrates similar
convergence properties when integrated with a novel coordinate-wise variant of
our adaptive batch size strategies. Our theoretical claims are supported by
numerical experiments on various image classification tasks, highlighting the
enhanced adaptability of progressive batching protocols in deep learning and
the potential of such adaptive batch size strategies with adaptive gradient
optimizers in large-scale model training.
- Abstract(参考訳): 確率的勾配オプティマイザにおけるバッチサイズの選択はモデルトレーニングに不可欠である。
しかしながら、トレーニングプロセス全体でのバッチサイズの変化の実践は、他のハイパーパラメータと比べて、あまり調査されていない。
従来は確率的勾配降下にのみ適用されていた適応的サンプリング法に基づく適応的バッチサイズ戦略について検討した。
学習率とバッチサイズの間に有意な相互作用があり、ディープラーニングにおける適応勾配法の普及を考えると、これらの文脈における適応的バッチサイズ戦略の必要性を強調する。
本稿では、AdAdaGradとそのスカラー変種AdAdaGradNormを紹介し、トレーニング中のバッチサイズを漸進的に増加させ、モデル更新はAdaGradとAdaGradNormを使用して行う。
adagradnorm は $k$ の反復内で滑らかな非凸関数の1次定常点を見つけるために $\mathscr{o}(1/k)$ で高い確率で収束する。
AdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。
この理論的な主張は,様々な画像分類タスクにおける数値実験によって支持されており,ディープラーニングにおけるプログレッシブバッチプロトコルの適応性の向上と,大規模モデルトレーニングにおける適応勾配最適化を用いた適応バッチサイズ戦略の可能性に注目している。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Communication-Efficient Adaptive Batch Size Strategies for Distributed Local Gradient Methods [17.006352664497122]
現代のディープニューラルネットワークは、大きなサイズのため、多くの労働者による分散トレーニングを必要とすることが多い。
ワーカの数が増えるにつれて、通信オーバーヘッドがデータ並列のミニバッチ勾配法における主要なボトルネックとなる。
局所勾配法に対して適応的なバッチサイズ戦略を導入し、バッチサイズを適応的に増加させ、ミニバッチ勾配のばらつきを低減する。
論文 参考訳(メタデータ) (2024-06-20T02:08:50Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Enhancing Generalization of Universal Adversarial Perturbation through
Gradient Aggregation [40.18851174642427]
深部ニューラルネットワークは普遍的逆境摂動(UAP)に脆弱である
本稿では,一般化の観点から,UAP生成手法の真剣なジレンマについて検討する。
グラディエント・アグリゲーション(SGA)と呼ばれるシンプルで効果的な手法を提案する。
SGAは勾配の消失を緩和し、局所最適度の低下から同時に逃れる。
論文 参考訳(メタデータ) (2023-08-11T08:44:58Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。