論文の概要: Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems
- arxiv url: http://arxiv.org/abs/2007.01219v2
- Date: Thu, 9 Jul 2020 15:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 14:56:05.034094
- Title: Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems
- Title(参考訳): 確率最適化問題に対する適応バッチサイズによるバランシング率とばらつき
- Authors: Zhan Gao and Alec Koppel and Alejandro Ribeiro
- Abstract要約: 本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
- 参考スコア(独自算出の注目度): 120.21685755278509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic gradient descent is a canonical tool for addressing stochastic
optimization problems, and forms the bedrock of modern machine learning and
statistics. In this work, we seek to balance the fact that attenuating
step-size is required for exact asymptotic convergence with the fact that
constant step-size learns faster in finite time up to an error. To do so,
rather than fixing the mini-batch and the step-size at the outset, we propose a
strategy to allow parameters to evolve adaptively. Specifically, the batch-size
is set to be a piecewise-constant increasing sequence where the increase occurs
when a suitable error criterion is satisfied. Moreover, the step-size is
selected as that which yields the fastest convergence. The overall algorithm,
two scale adaptive (TSA) scheme, is developed for both convex and non-convex
stochastic optimization problems. It inherits the exact asymptotic convergence
of stochastic gradient method. More importantly, the optimal error decreasing
rate is achieved theoretically, as well as an overall reduction in
computational cost. Experimentally, we observe that TSA attains a favorable
tradeoff relative to standard SGD that fixes the mini-batch and the step-size,
or simply allowing one to increase or decrease respectively.
- Abstract(参考訳): 確率的勾配降下は、確率的最適化問題に対処する標準的なツールであり、現代の機械学習と統計の基盤を形成する。
本研究は, 漸近収束においてステップサイズの減衰が要求されるという事実と, 有限時間で誤差まで高速に学習するという事実のバランスをとることを目的とする。
そこで我々は,ミニバッチとステップサイズを最初から修正するのではなく,パラメータを適応的に進化させる戦略を提案する。
具体的には、バッチサイズを、適切なエラー基準が満たされたときに増加が生じる一括即時増加シーケンスとする。
さらに、ステップサイズを最も高速な収束値として選択する。
全体的なアルゴリズムである2つのスケール適応(TSA)スキームは、凸および非凸確率最適化問題に対して開発された。
これは確率勾配法の正確な漸近収束を継承する。
より重要なことに、最適誤差減少率と計算コストの全体的な削減が理論的に達成される。
実験では,tsaがミニバッチとステップサイズを固定する標準sgdと比較して好都合なトレードオフを達成できたか,あるいは単に増減を許すだけであった。
関連論文リスト
- Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - TiAda: A Time-scale Adaptive Algorithm for Nonconvex Minimax
Optimization [24.784754071913255]
適応的手法は、パラメータに依存しない方法でハエの段差を調整する能力を示した。
非凹極小問題に対する勾配上昇の電流収束解析にはパラメータの注意深くチューニングが必要である。
論文 参考訳(メタデータ) (2022-10-31T17:05:36Z) - Formal guarantees for heuristic optimization algorithms used in machine
learning [6.978625807687497]
グラディエント・Descent(SGD)とその変種は、大規模最適化機械学習(ML)問題において支配的な手法となっている。
本稿では,いくつかの凸最適化手法の形式的保証と改良アルゴリズムの提案を行う。
論文 参考訳(メタデータ) (2022-07-31T19:41:22Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent [7.176107039687231]
雑音に対して勾配降下(SGD)を適応させるステップサイズスキームを設計する。
我々は、Nesterov反復によるSGDの$T$反復がほぼ最適であることを示す。
他のステップサイズスキームと比較して、新しい指数的なステップサイズスキームの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-21T19:22:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Stochastic Proximal Gradient Algorithm with Minibatches. Application to
Large Scale Learning Models [2.384873896423002]
非滑らかな成分を持つ汎用合成対象関数に対する勾配アルゴリズムのミニバッチ変種を開発し解析する。
我々は、最小バッチサイズ$N$に対して、$mathcalO(frac1Nepsilon)$$epsilon-$subityが最適解に期待される二次距離で達成されるような、定数および変数のステップサイズ反復ポリシーの複雑さを提供する。
論文 参考訳(メタデータ) (2020-03-30T10:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。