論文の概要: Gradient Descent with Provably Tuned Learning-rate Schedules
- arxiv url: http://arxiv.org/abs/2512.05084v1
- Date: Thu, 04 Dec 2025 18:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.324427
- Title: Gradient Descent with Provably Tuned Learning-rate Schedules
- Title(参考訳): 可変可変型学習率スケジューリングによるグラディエントDescent
- Authors: Dravyansh Sharma,
- Abstract要約: そこで我々は,勾配に基づくアルゴリズムにおいて,因子を確実にチューニングするための新しい解析ツールを開発した。
我々の分析は、一般的に使用される活性化関数を持つニューラルネットワークに適用される。
- 参考スコア(独自算出の注目度): 14.391648046717073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based iterative optimization methods are the workhorse of modern machine learning. They crucially rely on careful tuning of parameters like learning rate and momentum. However, one typically sets them using heuristic approaches without formal near-optimality guarantees. Recent work by Gupta and Roughgarden studies how to learn a good step-size in gradient descent. However, like most of the literature with theoretical guarantees for gradient-based optimization, their results rely on strong assumptions on the function class including convexity and smoothness which do not hold in typical applications. In this work, we develop novel analytical tools for provably tuning hyperparameters in gradient-based algorithms that apply to non-convex and non-smooth functions. We obtain matching sample complexity bounds for learning the step-size in gradient descent shown for smooth, convex functions in prior work (up to logarithmic factors) but for a much broader class of functions. Our analysis applies to gradient descent on neural networks with commonly used activation functions (including ReLU, sigmoid and tanh). We extend our framework to tuning multiple hyperparameters, including tuning the learning rate schedule, simultaneously tuning momentum and step-size, and pre-training the initialization vector. Our approach can be used to bound the sample complexity for minimizing both the validation loss as well as the number of gradient descent iterations.
- Abstract(参考訳): 勾配に基づく反復最適化手法は、現代の機械学習の成果である。
彼らは学習率や運動量といったパラメータを注意深くチューニングすることに非常に依存しています。
しかし、一般には、公式に近い最適性を保証することなく、ヒューリスティックなアプローチを用いてそれらを設定する。
Gupta と Roughgarden による最近の研究は、勾配降下のよいステップサイズを学習する方法を研究している。
しかし、勾配に基づく最適化の理論的保証を持つ多くの文献と同様に、それらの結果は典型的な応用では成り立たない凸性や滑らかさを含む関数類への強い仮定に依存している。
本研究では,非凸関数および非滑らか関数に適用可能な勾配に基づくアルゴリズムにおいて,ハイパーパラメータを確実にチューニングするための新しい解析ツールを開発する。
先行作業(対数因子まで)における滑らかな凸関数に対して示される勾配降下のステップサイズを学習するために、一致するサンプル複雑性境界を得るが、より広範な関数のクラスに対して得られる。
我々の分析は、よく使われる活性化関数(ReLU、sigmoid、tanhを含む)を持つニューラルネットワーク上の勾配降下に適用する。
我々は,学習速度スケジュールの調整,運動量とステップサイズの同時調整,初期化ベクトルの事前学習など,複数のハイパーパラメータのチューニングにフレームワークを拡張した。
我々の手法は、検証損失と勾配降下回数の両方を最小化するために、サンプルの複雑さを束縛するために使用することができる。
関連論文リスト
- Bilevel Learning via Inexact Stochastic Gradient Descent [5.312803257246881]
バイレベル最適化は、高次元ハイパーチューニングのための機械学習の中心的なツールである。
両レベル最適化の不正確な理論を推し進める。
我々は収束を証明し、減衰精度とステップサイズスケジュールでレートを確立する。
論文 参考訳(メタデータ) (2025-11-10T07:02:52Z) - Posterior Approximation using Stochastic Gradient Ascent with Adaptive Stepsize [24.464140786923476]
後続近似により、ディリクレプロセスの混合のような非パラメトリックは、分数的なコストでより大きなデータセットにスケールアップできる。
勾配上昇は機械学習の現代的なアプローチであり、ディープニューラルネットワークのトレーニングに広く利用されている。
本研究では,ディリクレプロセス混合物の後部近似のための高速アルゴリズムとして勾配上昇法について検討する。
論文 参考訳(メタデータ) (2024-12-12T05:33:23Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization [0.6906005491572401]
バッチ降下(SGD)におけるノイズは,目的関数の平滑化の効果を示す。
SGDsノイズによるスムース化の程度と、よく研究されたシャープネスの指標との間には、興味深い関係があることが示されている。
論文 参考訳(メタデータ) (2023-11-15T07:27:40Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Reparametrizing gradient descent [0.0]
本稿では,ノルム適応勾配勾配という最適化アルゴリズムを提案する。
我々のアルゴリズムは準ニュートン法と比較することもできるが、定常点ではなく根を求める。
論文 参考訳(メタデータ) (2020-10-09T20:22:29Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。