論文の概要: AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size
- arxiv url: http://arxiv.org/abs/2402.05264v1
- Date: Wed, 7 Feb 2024 21:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:21:36.481958
- Title: AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size
- Title(参考訳): AdaBatchGrad: 適応バッチサイズと適応ステップサイズを組み合わせる
- Authors: Petr Ostroukhov, Aigerim Zhumabayeva, Chulu Xiang, Alexander Gasnikov,
Martin Tak\'a\v{c}, Dmitry Kamzolov
- Abstract要約: 本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。
適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。
適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
- 参考スコア(独自算出の注目度): 42.84471753630676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel adaptation of the Stochastic Gradient Descent
(SGD), termed AdaBatchGrad. This modification seamlessly integrates an adaptive
step size with an adjustable batch size. An increase in batch size and a
decrease in step size are well-known techniques to tighten the area of
convergence of SGD and decrease its variance. A range of studies by R. Byrd and
J. Nocedal introduced various testing techniques to assess the quality of
mini-batch gradient approximations and choose the appropriate batch sizes at
every step. Methods that utilized exact tests were observed to converge within
$O(LR^2/\varepsilon)$ iterations. Conversely, inexact test implementations
sometimes resulted in non-convergence and erratic performance. To address these
challenges, AdaBatchGrad incorporates both adaptive batch and step sizes,
enhancing the method's robustness and stability. For exact tests, our approach
converges in $O(LR^2/\varepsilon)$ iterations, analogous to standard gradient
descent. For inexact tests, it achieves convergence in $O(\max\lbrace
LR^2/\varepsilon, \sigma^2 R^2/\varepsilon^2 \rbrace )$ iterations. This makes
AdaBatchGrad markedly more robust and computationally efficient relative to
prevailing methods. To substantiate the efficacy of our method, we
experimentally show, how the introduction of adaptive step size and adaptive
batch size gradually improves the performance of regular SGD. The results imply
that AdaBatchGrad surpasses alternative methods, especially when applied to
inexact tests.
- Abstract(参考訳): 本稿では,Stochastic Gradient Descent(SGD)の新規な適応をAdaBatchGradと呼ぶ。
この修正は適応ステップサイズと調整可能なバッチサイズをシームレスに統合する。
バッチサイズの増加とステップサイズの減少は、sgdの収束面積を狭め、分散を減少させるためによく知られた技術である。
R. Byrd と J. Nocedal による一連の研究は、ミニバッチ勾配近似の品質を評価し、各ステップで適切なバッチサイズを選択する様々なテスト手法を導入した。
正確なテストを利用する手法は、$O(LR^2/\varepsilon)$イテレーション内に収束することが観察された。
逆に、不正確なテスト実装は時々非収束と不規則なパフォーマンスをもたらす。
これらの課題に対処するため、AdaBatchGradは適応バッチとステップサイズの両方を導入し、メソッドの堅牢性と安定性を高めている。
正確なテストでは、我々のアプローチは標準勾配降下に類似した$O(LR^2/\varepsilon)$反復に収束する。
不正確なテストでは、$O(\max\lbrace LR^2/\varepsilon, \sigma^2 R^2/\varepsilon^2 \rbrace )$ iterations で収束する。
これによってadabatchgradは、従来の方法に比べて著しく堅牢で計算効率が良い。
本手法の有効性を実証するために,適応ステップサイズと適応バッチサイズの導入により,sgdの性能が徐々に向上することを示す。
その結果、AdaBatchGradは、特に不正確なテストに適用された場合、代替メソッドを上回ります。
関連論文リスト
- Modified Step Size for Enhanced Stochastic Gradient Descent: Convergence
and Experiments [0.0]
本稿では,$frac1sqrtttをベースとした変形ステップサイズを改良することにより,勾配降下法(SGD)アルゴリズムの性能向上に新たなアプローチを提案する。
提案されたステップサイズは対数的なステップ項を統合し、最終イテレーションでより小さな値を選択する。
提案手法の有効性について,FashionMNISTとARARを用いて画像分類タスクの数値実験を行った。
論文 参考訳(メタデータ) (2023-09-03T19:21:59Z) - Cutting Some Slack for SGD with Adaptive Polyak Stepsizes [35.024680868164445]
SPS (Stochastic gradient with a Polyak Stepsize) 適応法について考察する。
まず、SPSとその最近の変種は、すべて非線形問題に適用されたパッシブ・攻撃的手法の拡張と見なせることを示す。
我々はこの知見を用いて非線形モデルに適した新しいSPS法を開発した。
論文 参考訳(メタデータ) (2022-02-24T19:31:03Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - AdaGDA: Faster Adaptive Gradient Descent Ascent Methods for Minimax
Optimization [104.96004056928474]
本稿では,非コンケーブ最小値問題に対する高速適応勾配降下法を提案する。
我々は,本手法が,ミニバッチサイズが$O(kappa2.5epsilon-3)$のより低いサンプル複雑性に達することを示す。
論文 参考訳(メタデータ) (2021-06-30T14:47:09Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Adaptive Gradient Methods Converge Faster with Over-Parameterization
(but you should do a line-search) [32.24244211281863]
データを補間するのに十分なパラメータ化モデルを用いて、スムーズで凸的な損失を簡易に設定する。
一定のステップサイズと運動量を持つ AMSGrad がより高速な$O(1/T)$レートで最小値に収束することを証明する。
これらの手法により,タスク間の適応勾配法の収束と一般化が向上することを示す。
論文 参考訳(メタデータ) (2020-06-11T21:23:30Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。