論文の概要: Parameter-free Clipped Gradient Descent Meets Polyak
- arxiv url: http://arxiv.org/abs/2405.15010v2
- Date: Thu, 31 Oct 2024 15:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:56:23.613742
- Title: Parameter-free Clipped Gradient Descent Meets Polyak
- Title(参考訳): パラメタフリークリッピンググラディエント染料がポリアクと出会う
- Authors: Yuki Takezawa, Han Bao, Ryoma Sato, Kenta Niwa, Makoto Yamada,
- Abstract要約: 勾配降下とその変種は、機械学習モデルをトレーニングするためのデファクト標準アルゴリズムである。
Inexact Polyak Stepsizeを提案し、これはハイパーパラメータチューニングなしで最適解に収束する。
合成関数を用いて収束結果を数値的に検証し,提案手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 29.764853985834403
- License:
- Abstract: Gradient descent and its variants are de facto standard algorithms for training machine learning models. As gradient descent is sensitive to its hyperparameters, we need to tune the hyperparameters carefully using a grid search. However, the method is time-consuming, particularly when multiple hyperparameters exist. Therefore, recent studies have analyzed parameter-free methods that adjust the hyperparameters on the fly. However, the existing work is limited to investigations of parameter-free methods for the stepsize, and parameter-free methods for other hyperparameters have not been explored. For instance, although the gradient clipping threshold is a crucial hyperparameter in addition to the stepsize for preventing gradient explosion issues, none of the existing studies have investigated parameter-free methods for clipped gradient descent. Therefore, in this study, we investigate the parameter-free methods for clipped gradient descent. Specifically, we propose Inexact Polyak Stepsize, which converges to the optimal solution without any hyperparameters tuning, and its convergence rate is asymptotically independent of $L$ under $L$-smooth and $(L_0, L_1)$-smooth assumptions of the loss function, similar to that of clipped gradient descent with well-tuned hyperparameters. We numerically validated our convergence results using a synthetic function and demonstrated the effectiveness of our proposed methods using LSTM, Nano-GPT, and T5.
- Abstract(参考訳): 勾配降下とその変種は、機械学習モデルをトレーニングするためのデファクト標準アルゴリズムである。
勾配降下はハイパーパラメータに敏感であるため、格子探索を用いてハイパーパラメータを注意深く調整する必要がある。
しかし、この方法は特に複数のハイパーパラメータが存在する場合、時間を要する。
そのため、最近の研究では、ハエのハイパーパラメータを調整するパラメータフリーな手法が分析されている。
しかし、既存の研究は段差のパラメータフリー法の研究に限られており、他のハイパーパラメーターに対するパラメータフリー法は検討されていない。
例えば、勾配クリッピング閾値は、勾配爆発の防止のための段差に加えて重要なハイパーパラメータであるが、既存の研究では、クリッピング勾配降下のためのパラメータフリーな手法は検討されていない。
そこで本研究では,クリッピング勾配降下に対するパラメータフリー手法について検討した。
具体的には、過度パラメータチューニングを伴わない最適解に収束するInexact Polyak Stepsizeを提案し、その収束率は、よく調整されたハイパーパラメータによるクリッピング勾配降下と同様、損失関数の$L$-smooth と$(L_0, L_1)$-smooth とは漸近的に独立である。
合成関数を用いて収束結果を数値的に検証し,LSTM,Nano-GPT,T5を用いて提案手法の有効性を実証した。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - How Free is Parameter-Free Stochastic Optimization? [29.174036532175855]
パラメータフリー最適化の問題について検討し、パラメータフリーな手法が存在するかどうかを問う。
既存の手法は、真の問題パラメータに関するいくつかの非自明な知識を必要とするため、部分的にはパラメータフリーとみなすことができる。
単純なハイパーサーチ手法により、より洗練された最先端アルゴリズムより優れたパラメータフリーな手法が実現できることを実証する。
論文 参考訳(メタデータ) (2024-02-05T15:51:49Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Online Hyperparameter Search Interleaved with Proximal Parameter Updates [9.543667840503739]
本研究では,近似勾配法の構造に依存する手法を開発し,スムーズなコスト関数を必要としない。
そのような方法は、Leave-one-out (LOO)-validated LassoおよびGroup Lassoに適用される。
数値実験により,提案手法の収束度をLOO検証誤差曲線の局所最適値に相関させる。
論文 参考訳(メタデータ) (2020-04-06T15:54:03Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。