論文の概要: Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method
- arxiv url: http://arxiv.org/abs/2206.06900v1
- Date: Tue, 14 Jun 2022 14:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 17:22:18.007777
- Title: Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method
- Title(参考訳): 大学院生?
非単調適応確率勾配法
- Authors: Aaron Defazio, Baoyu Zhou, Lin Xiao
- Abstract要約: そこで我々はGradaGradを紹介した。GradaGradとは,分母の蓄積によって自然に学習率を向上または縮小する手法である。
AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。
- 参考スコア(独自算出の注目度): 17.275654092947647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The classical AdaGrad method adapts the learning rate by dividing by the
square root of a sum of squared gradients. Because this sum on the denominator
is increasing, the method can only decrease step sizes over time, and requires
a learning rate scaling hyper-parameter to be carefully tuned. To overcome this
restriction, we introduce GradaGrad, a method in the same family that naturally
grows or shrinks the learning rate based on a different accumulation in the
denominator, one that can both increase and decrease. We show that it obeys a
similar convergence rate as AdaGrad and demonstrate its non-monotone adaptation
capability with experiments.
- Abstract(参考訳): 古典的なAdaGrad法は、二乗勾配の和の平方根で割ることで学習率に適応する。
この分母の和が増加するので、この方法は時間とともにステップサイズを小さくし、注意深く調整するには学習率スケーリングハイパーパラメータが必要となる。
この制限を克服するために,本研究では,分母の蓄積量の違いに基づいて自然に学習率を向上または縮小する,同じ家庭のGradaGradを紹介する。
AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。
関連論文リスト
- An Adaptive Stochastic Gradient Method with Non-negative Gauss-Newton Stepsizes [17.804065824245402]
機械学習の応用では、各損失関数は非負であり、平方根とその実数値平方根の構成として表すことができる。
本稿では, ガウス・ニュートン法やレフスカルト法を適用して, 滑らかだが非負な関数の平均を最小化する方法を示す。
論文 参考訳(メタデータ) (2024-07-05T08:53:06Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Interpreting Adaptive Gradient Methods by Parameter Scaling for
Learning-Rate-Free Optimization [14.009179786857802]
深層ニューラルネットワークの学習に使用される適応的勾配法について,学習率を推定する上での課題に対処する。
学習速度のないいくつかのアプローチが提案されているが、それらは典型的には最も急降下に適したものである。
本稿では,適応勾配法をパラメータスケールネットワークに適用した最も急勾配と解釈する。
論文 参考訳(メタデータ) (2024-01-06T15:45:29Z) - Aiming towards the minimizers: fast convergence of SGD for
overparametrized problems [25.077446336619378]
本稿では,勾配法と同一のケース複雑性を有する勾配法を提案する。
既存の保証は全て勾配法で小さなステップを踏む必要があり、結果として収束速度ははるかに遅くなる。
我々は,線形出力層を用いた十分に広いフィードフォワードニューラルネットワークのトレーニングにおいて,この条件が成り立つことを実証した。
論文 参考訳(メタデータ) (2023-06-05T05:21:01Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - A Study of Gradient Variance in Deep Learning [56.437755740715396]
階層化サンプリングによる平均ミニバッチ勾配のばらつきを最小化する手法であるグラディエントクラスタリングを導入する。
我々は、一般的なディープラーニングベンチマークの勾配分散を測定し、一般的な仮定に反して、トレーニング中に勾配分散が増加することを観察する。
論文 参考訳(メタデータ) (2020-07-09T03:23:10Z) - Carath\'eodory Sampling for Stochastic Gradient Descent [79.55586575988292]
本稿では,Tchakaloff と Carath'eodory の古典的な結果から着想を得た手法を提案する。
我々は、測定値の低減を行う降下ステップを適応的に選択する。
これをBlock Coordinate Descentと組み合わせることで、測定の削減を極めて安価に行えるようにします。
論文 参考訳(メタデータ) (2020-06-02T17:52:59Z) - Explore Aggressively, Update Conservatively: Stochastic Extragradient
Methods with Variable Stepsize Scaling [34.35013145885164]
機械学習における大規模サドルポイント問題の解法としては、段階的な手法が必須となっている。
本稿では, 単純な双線形モデルであっても, 勾配によるバニラの過度な走行は収束を阻害する可能性があることを示す。
この修正により勾配にも収束でき、誤差境界条件下での鋭い収束率を導出できることを示す。
論文 参考訳(メタデータ) (2020-03-23T10:24:27Z) - Disentangling Adaptive Gradient Methods from Learning Rates [65.0397050979662]
適応的勾配法が学習率のスケジュールとどのように相互作用するかを、より深く検討する。
我々は、更新の規模をその方向から切り離す"グラフティング"実験を導入する。
適応勾配法の一般化に関する経験的および理論的考察を示す。
論文 参考訳(メタデータ) (2020-02-26T21:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。