論文の概要: Unlocking optimal batch size schedules using continuous-time control and
perturbation theory
- arxiv url: http://arxiv.org/abs/2312.01898v1
- Date: Mon, 4 Dec 2023 13:54:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:03:27.824232
- Title: Unlocking optimal batch size schedules using continuous-time control and
perturbation theory
- Title(参考訳): 連続時間制御と摂動理論を用いた最適バッチサイズスケジュールの解錠
- Authors: Stefan Perko
- Abstract要約: Gradient Descent(SGD)とその変種は、ニューラルネットワークのトレーニングや、他の様々なパラメトリックモデルに適合するために、ほぼ普遍的に使用されている。
これまでの研究は、可変バッチサイズを使うことの利点を実証してきた。
理論的には、SGDと類似アルゴリズムの最適なバッチサイズスケジュールを学習率の誤差まで導き出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic Gradient Descent (SGD) and its variants are almost universally
used to train neural networks and to fit a variety of other parametric models.
An important hyperparameter in this context is the batch size, which determines
how many samples are processed before an update of the parameters occurs.
Previous studies have demonstrated the benefits of using variable batch sizes.
In this work, we will theoretically derive optimal batch size schedules for SGD
and similar algorithms, up to an error that is quadratic in the learning rate.
To achieve this, we approximate the discrete process of parameter updates using
a family of stochastic differential equations indexed by the learning rate. To
better handle the state-dependent diffusion coefficient, we further expand the
solution of this family into a series with respect to the learning rate. Using
this setup, we derive a continuous-time optimal batch size schedule for a large
family of diffusion coefficients and then apply the results in the setting of
linear regression.
- Abstract(参考訳): 確率勾配降下(sgd)とその変種は、ほぼ普遍的にニューラルネットワークを訓練し、他の様々なパラメトリックモデルに適合するために用いられる。
このコンテキストにおける重要なハイパーパラメータはバッチサイズであり、パラメータが更新される前にどれだけのサンプルが処理されているかを決定する。
これまでの研究は、可変バッチサイズを使うことの利点を実証してきた。
本研究では,SGDと類似アルゴリズムの最適バッチサイズスケジュールを,学習速度の2次誤差まで理論的に導出する。
そこで本研究では,学習率を指標とした確率微分方程式の族を用いて,パラメータ更新の離散過程を近似する。
状態依存拡散係数をよりうまく扱うために,我々はこのファミリーの解を学習率に関して系列に拡張する。
この設定を用いて,拡散係数の大きなファミリーに対して,連続時間最適バッチサイズスケジュールを導出し,その結果を線形回帰のセットに適用する。
関連論文リスト
- Faster Convergence of Riemannian Stochastic Gradient Descent with Increasing Batch Size [0.6906005491572401]
バッチサイズの増加は、一定のバッチサイズを使用するよりも、RSGDの高速化につながる。
主成分分析と低ランク行列問題の実験により, 成長バッチサイズや指数成長バッチサイズを用いることで, 一定のバッチサイズよりも優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2025-01-30T06:23:28Z) - Iteration and Stochastic First-order Oracle Complexities of Stochastic
Gradient Descent using Constant and Decaying Learning Rates [0.8158530638728501]
本研究では,学習速度だけでなく,バッチサイズにも依存していることを示す。
その結果, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。
論文 参考訳(メタデータ) (2024-02-23T14:24:45Z) - Relationship between Batch Size and Number of Steps Needed for Nonconvex
Optimization of Stochastic Gradient Descent using Armijo Line Search [0.8158530638728501]
本研究では,SGDが深層数値線を用いた場合,他の深層学習ネットワークよりも優れた性能を示す。
その結果,バッチサイズが大きくなるにつれて,SFOに必要なステップ数を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T21:59:17Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Interacting Particle Langevin Algorithm for Maximum Marginal Likelihood
Estimation [2.53740603524637]
我々は,最大限界推定法を実装するための相互作用粒子系のクラスを開発する。
特に、この拡散の定常測度のパラメータ境界がギブス測度の形式であることを示す。
特定の再スケーリングを用いて、このシステムの幾何学的エルゴディディティを証明し、離散化誤差を限定する。
時間的に一様で、粒子の数で増加しない方法で。
論文 参考訳(メタデータ) (2023-03-23T16:50:08Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。