論文の概要: Polyak Meets Parameter-free Clipped Gradient Descent
- arxiv url: http://arxiv.org/abs/2405.15010v1
- Date: Thu, 23 May 2024 19:29:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:17:31.714129
- Title: Polyak Meets Parameter-free Clipped Gradient Descent
- Title(参考訳): Polyakがパラメータフリーのクラッピンググラディエント染料を発売
- Authors: Yuki Takezawa, Han Bao, Ryoma Sato, Kenta Niwa, Makoto Yamada,
- Abstract要約: クリッピング勾配降下に対するパラメータフリー手法について検討した。
具体的には、ハイパーパラメータチューニングを伴わない最適解に収束するInexact Polyak Stepsizeを提案する。
合成関数を用いて収束結果を数値的に検証し,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 29.764853985834403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient descent and its variants are de facto standard algorithms for training machine learning models. As gradient descent is sensitive to its hyperparameters, we need to tune the hyperparameters carefully using a grid search, but it is time-consuming, especially when multiple hyperparameters exist. Recently, parameter-free methods that adjust the hyperparameters on the fly have been studied. However, the existing work only studied parameter-free methods for the stepsize, and parameter-free methods for other hyperparameters have not been explored. For instance, the gradient clipping threshold is also a crucial hyperparameter in addition to the stepsize to prevent gradient explosion issues, but none of the existing studies investigated the parameter-free methods for clipped gradient descent. In this work, we study the parameter-free methods for clipped gradient descent. Specifically, we propose Inexact Polyak Stepsize, which converges to the optimal solution without any hyperparameters tuning, and its convergence rate is asymptotically independent of L under L-smooth and $(L_0, L_1)$-smooth assumptions of the loss function as that of clipped gradient descent with well-tuned hyperparameters. We numerically validated our convergence results using a synthetic function and demonstrated the effectiveness of our proposed methods using LSTM, Nano-GPT, and T5.
- Abstract(参考訳): 勾配降下とその変種は、機械学習モデルをトレーニングするためのデファクト標準アルゴリズムである。
勾配降下はそのハイパーパラメータに敏感であるので、グリッドサーチを用いて注意深くハイパーパラメータを調整する必要があるが、特に複数のハイパーパラメータが存在する場合、時間を要する。
近年,ハエのハイパーパラメータを調整するパラメータフリー手法が研究されている。
しかし、既存の研究は段階化のためのパラメータフリー法のみを研究しており、他のハイパーパラメーターに対するパラメータフリー法は検討されていない。
例えば、勾配のクリッピング閾値は、勾配の爆発問題を防ぐための段差に加えて重要なハイパーパラメーターでもあるが、既存の研究では、クリッピング勾配降下のパラメータフリー法は検討されていない。
本研究では,クリッピング勾配降下に対するパラメータフリー手法について検討する。
具体的には、過度パラメータチューニングなしで最適解に収束するInexact Polyak Stepsizeを提案し、その収束率はL-smooth と $(L_0, L_1)$-smooth の L-smooth の下で漸近的に独立である。
合成関数を用いて収束結果を数値的に検証し,LSTM,Nano-GPT,T5を用いて提案手法の有効性を実証した。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - How Free is Parameter-Free Stochastic Optimization? [29.174036532175855]
パラメータフリー最適化の問題について検討し、パラメータフリーな手法が存在するかどうかを問う。
既存の手法は、真の問題パラメータに関するいくつかの非自明な知識を必要とするため、部分的にはパラメータフリーとみなすことができる。
単純なハイパーサーチ手法により、より洗練された最先端アルゴリズムより優れたパラメータフリーな手法が実現できることを実証する。
論文 参考訳(メタデータ) (2024-02-05T15:51:49Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Online Hyperparameter Search Interleaved with Proximal Parameter Updates [9.543667840503739]
本研究では,近似勾配法の構造に依存する手法を開発し,スムーズなコスト関数を必要としない。
そのような方法は、Leave-one-out (LOO)-validated LassoおよびGroup Lassoに適用される。
数値実験により,提案手法の収束度をLOO検証誤差曲線の局所最適値に相関させる。
論文 参考訳(メタデータ) (2020-04-06T15:54:03Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。