論文の概要: Locally Optimal Descent for Dynamic Stepsize Scheduling
- arxiv url: http://arxiv.org/abs/2311.13877v1
- Date: Thu, 23 Nov 2023 09:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:20:55.575178
- Title: Locally Optimal Descent for Dynamic Stepsize Scheduling
- Title(参考訳): 動的ステップスケジューリングのための局所最適降下
- Authors: Gilad Yehudai, Alon Cohen, Amit Daniely, Yoel Drori, Tomer Koren,
Mariano Schain
- Abstract要約: 本稿では,段階的スケジュールのマニュアルと時間的チューニングを簡略化することを目的とした,理論に基づく新しい動的学習スケジューリング手法を提案する。
本手法は,スムーズな勾配方向の局所最適練習速度を推定することに基づく。
提案手法は,既存手法と比較して最小限のチューニングが必要であることが示唆された。
- 参考スコア(独自算出の注目度): 45.6809308002043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel dynamic learning-rate scheduling scheme grounded in
theory with the goal of simplifying the manual and time-consuming tuning of
schedules in practice. Our approach is based on estimating the locally-optimal
stepsize, guaranteeing maximal descent in the direction of the stochastic
gradient of the current step. We first establish theoretical convergence bounds
for our method within the context of smooth non-convex stochastic optimization,
matching state-of-the-art bounds while only assuming knowledge of the
smoothness parameter. We then present a practical implementation of our
algorithm and conduct systematic experiments across diverse datasets and
optimization algorithms, comparing our scheme with existing state-of-the-art
learning-rate schedulers. Our findings indicate that our method needs minimal
tuning when compared to existing approaches, removing the need for auxiliary
manual schedules and warm-up phases and achieving comparable performance with
drastically reduced parameter tuning.
- Abstract(参考訳): 本稿では,実際にスケジュールのマニュアルと時間的チューニングを簡略化することを目的として,理論に基づく新しい動的学習率スケジューリング手法を提案する。
本手法は,局所最適ステップを推定し,現在のステップの確率勾配の方向における最大降下を保証する。
まず, 滑らか性パラメータの知識のみを仮定しながら, 滑らかな非凸確率最適化の文脈において, 理論収束境界を定式化する。
次に,本手法を既存の学習率スケジューラと比較し,多種多様なデータセットと最適化アルゴリズムにまたがる系統的実験を行う。
提案手法は,既存の手法と比較して最小限のチューニングが必要であり,補助的な手動スケジュールやウォームアップフェーズを不要とし,パラメータチューニングを劇的に削減して同等の性能を達成できることを示す。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Optimistic Planning by Regularized Dynamic Programming [12.411844611718958]
無限水平割引マルコフ決定過程における楽観的計画法を提案する。
この手法により、縮退や単調な議論を避けることができる。
ほぼ最適統計保証が得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T17:48:08Z) - On Constraints in First-Order Optimization: A View from Non-Smooth
Dynamical Systems [99.59934203759754]
本稿では,スムーズな制約付き最適化のための一階法について紹介する。
提案手法の2つの特徴は、実現可能な集合全体の投影や最適化が避けられることである。
結果として得られるアルゴリズムの手順は、制約が非線形であっても簡単に実装できる。
論文 参考訳(メタデータ) (2021-07-17T11:45:13Z) - Learning Stochastic Optimal Policies via Gradient Descent [17.9807134122734]
学習に基づく最適制御処理(SOC)を体系的に開発する。
本稿では, 微分方程式に対する随伴感度の導出について, 変分計算の直接適用により提案する。
本稿では,比例トランザクションコストを伴う連続時間有限地平線ポートフォリオ最適化における提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-07T16:43:07Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Adaptive Importance Sampling for Finite-Sum Optimization and Sampling
with Decreasing Step-Sizes [4.355567556995855]
ステップサイズを小さくした有限サム最適化とサンプリングのための適応的重要度サンプリングのための簡易かつ効率的なアルゴリズムであるavareを提案する。
標準的な技術的条件下では、$mathcalO(T2/3)$と$mathcalO(T5/6)$の動的後悔をそれぞれ、$mathcalO(T5/6)$のステップサイズで実行するときに達成している。
論文 参考訳(メタデータ) (2021-03-23T00:28:15Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。