論文の概要: Improving the convergence of SGD through adaptive batch sizes
- arxiv url: http://arxiv.org/abs/1910.08222v4
- Date: Wed, 27 Sep 2023 14:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 03:55:45.814384
- Title: Improving the convergence of SGD through adaptive batch sizes
- Title(参考訳): 適応バッチサイズによるSGDの収束性向上
- Authors: Scott Sievert and Shrey Shah
- Abstract要約: ミニバッチ勾配勾配(SGD)とその変種は、少数のトレーニング例で目的関数の勾配を近似する。
この研究は、バッチサイズをモデルのトレーニング損失に適応させる方法を示す。
- 参考スコア(独自算出の注目度): 0.1813006808606333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mini-batch stochastic gradient descent (SGD) and variants thereof approximate
the objective function's gradient with a small number of training examples, aka
the batch size. Small batch sizes require little computation for each model
update but can yield high-variance gradient estimates, which poses some
challenges for optimization. Conversely, large batches require more computation
but can yield higher precision gradient estimates. This work presents a method
to adapt the batch size to the model's training loss. For various function
classes, we show that our method requires the same order of model updates as
gradient descent while requiring the same order of gradient computations as
SGD. This method requires evaluating the model's loss on the entire dataset
every model update. However, the required computation is greatly reduced by
approximating the training loss. We provide experiments that illustrate our
methods require fewer model updates without increasing the total amount of
computation.
- Abstract(参考訳): 最小バッチ確率勾配勾配(SGD)とその変種は,少数の訓練例で目的関数の勾配を近似し,バッチサイズを推定した。
小さなバッチサイズでは、各モデルの更新にはほとんど計算を必要としないが、高分散勾配推定が得られるため、最適化にはいくつかの課題がある。
逆に、大きなバッチはより多くの計算を必要とするが、より高い精度の勾配推定が得られる。
本稿では,バッチサイズをモデルのトレーニング損失に適応させる手法を提案する。
様々な関数クラスに対して,SGDと同じ勾配計算を必要としながら,勾配降下と同じモデル更新の順序を必要とすることを示す。
この方法は、モデル更新毎にデータセット全体のモデル損失を評価する必要がある。
しかし、トレーニング損失を近似することで、必要な計算量は大幅に削減される。
提案手法を実証する実験では,計算量を増やすことなく,より少ないモデル更新を必要とする。
関連論文リスト
- AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - AdaScale SGD: A User-Friendly Algorithm for Distributed Training [29.430153773234363]
本研究では,大規模バッチ学習に学習率を確実に適応させるアルゴリズムであるAdaScale SGDを提案する。
勾配の分散に継続的に適応することにより、AdaScaleは幅広いバッチサイズでスピードアップを達成する。
これには、機械翻訳、画像分類、オブジェクト検出、音声認識タスクのためのモデル劣化のない大規模なバッチトレーニングが含まれる。
論文 参考訳(メタデータ) (2020-07-09T23:26:13Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z) - Variance Reduction with Sparse Gradients [82.41780420431205]
SVRGやSpiderBoostのような分散還元法では、大きなバッチ勾配と小さなバッチ勾配が混在している。
我々は、新しい空間演算子:ランダムトップk演算子を導入する。
我々のアルゴリズムは、画像分類、自然言語処理、スパース行列分解など様々なタスクにおいて、一貫してSpiderBoostより優れています。
論文 参考訳(メタデータ) (2020-01-27T08:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。