論文の概要: Parameter-Agnostic Optimization under Relaxed Smoothness
- arxiv url: http://arxiv.org/abs/2311.03252v1
- Date: Mon, 6 Nov 2023 16:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:35:35.175385
- Title: Parameter-Agnostic Optimization under Relaxed Smoothness
- Title(参考訳): 緩和平滑性下におけるパラメータ非依存最適化
- Authors: Florian H\"ubler, Junchi Yang, Xiang Li, Niao He
- Abstract要約: 本研究では,モメンタムを用いた正規化グラディエントDescence (NSGD-M) が,問題パラメータの事前知識を必要とせずに,速度-最適の複雑性を実現できることを示す。
決定論的設定では、指数係数は、バックトラックラインサーチによるグラディエント・ディクスト(Gradient Descent)を用いることで、中和することができる。
- 参考スコア(独自算出の注目度): 25.608968462899316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning hyperparameters, such as the stepsize, presents a major challenge of
training machine learning models. To address this challenge, numerous adaptive
optimization algorithms have been developed that achieve near-optimal
complexities, even when stepsizes are independent of problem-specific
parameters, provided that the loss function is $L$-smooth. However, as the
assumption is relaxed to the more realistic $(L_0, L_1)$-smoothness, all
existing convergence results still necessitate tuning of the stepsize. In this
study, we demonstrate that Normalized Stochastic Gradient Descent with Momentum
(NSGD-M) can achieve a (nearly) rate-optimal complexity without prior knowledge
of any problem parameter, though this comes at the cost of introducing an
exponential term dependent on $L_1$ in the complexity. We further establish
that this exponential term is inevitable to such schemes by introducing a
theoretical framework of lower bounds tailored explicitly for
parameter-agnostic algorithms. Interestingly, in deterministic settings, the
exponential factor can be neutralized by employing Gradient Descent with a
Backtracking Line Search. To the best of our knowledge, these findings
represent the first parameter-agnostic convergence results under the
generalized smoothness condition. Our empirical experiments further confirm our
theoretical insights.
- Abstract(参考訳): ステップサイズなどのハイパーパラメータのチューニングは、マシンラーニングモデルをトレーニングする上で大きな課題となる。
この課題に対処するために、ステップ化が問題固有のパラメータに依存しない場合であっても、損失関数が$l$-smoothであるような最適化アルゴリズムが多数開発されている。
しかし、仮定がより現実的な$(l_0, l_1)$-smoothnessに緩和されるので、既存のすべての収束結果はステップのチューニングを必要とする。
本研究では,運動量(nsgd-m)を用いた正規化確率的勾配降下によって,問題パラメータを事前に知ることなく,(ほぼ)レート・オプティカルな複雑性が達成できることを実証する。
さらに,この指数項は,パラメータ非依存アルゴリズムのために明示的に調整された下限の理論的枠組みを導入することにより,そのようなスキームには避けられないことを証明した。
興味深いことに、決定論的設定では、逆行探索を伴う勾配降下を用いることで指数係数を中和することができる。
我々の知る限り、これらの知見は、一般化された滑らかさ条件下での最初のパラメータに依存しない収束結果を示す。
我々の実証実験は我々の理論的洞察をさらに裏付ける。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Error Feedback under $(L_0,L_1)$-Smoothness: Normalization and Momentum [56.37522020675243]
機械学習の幅広い問題にまたがる正規化誤差フィードバックアルゴリズムに対する収束の最初の証明を提供する。
提案手法では,許容可能なステップサイズが大きくなったため,新しい正規化エラーフィードバックアルゴリズムは,各種タスクにおける非正規化エラーよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T10:19:27Z) - From Gradient Clipping to Normalization for Heavy Tailed SGD [19.369399536643773]
最近の実証的な証拠は、機械学習の応用が重尾ノイズを伴い、実際に有界分散の標準的な仮定に挑戦していることを示している。
本稿では, 勾配依存型雑音収束問題において, テール雑音下での厳密性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:01Z) - Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence
and Variance Reduction [26.9632099249085]
AdaSPSとAdaSLSと呼ばれる2種類の新しいSPSとSLSを提案し、非補間条件における収束を保証する。
我々は, AdaSPS と AdaSLS に新しい分散低減技術を導入し, $smashwidetildemathcalO(n+1/epsilon)$グラデーション評価を必要とするアルゴリズムを得る。
論文 参考訳(メタデータ) (2023-08-11T10:17:29Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - SGD with AdaGrad Stepsizes: Full Adaptivity with High Probability to
Unknown Parameters, Unbounded Gradients and Affine Variance [33.593203156666746]
本稿では,AdaGradが一階最適化のための適応(自己調整)手法を段階化することを示す。
低ノイズと高レジの両方で、低ノイズと高レジの両方で急激な収束率を見出す。
論文 参考訳(メタデータ) (2023-02-17T09:46:08Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - Support recovery and sup-norm convergence rates for sparse pivotal
estimation [79.13844065776928]
高次元スパース回帰では、ピボット推定器は最適な正規化パラメータがノイズレベルに依存しない推定器である。
非滑らかで滑らかな単一タスクとマルチタスク正方形ラッソ型推定器に対するミニマックス超ノルム収束率を示す。
論文 参考訳(メタデータ) (2020-01-15T16:11:04Z) - Convergence and sample complexity of gradient methods for the model-free
linear quadratic regulator problem [27.09339991866556]
本稿では,コントローラの空間を直接探索することにより,未知の計算系に対する最適制御を求める。
我々は、安定化フィードバックゲインの勾配-フローのダイナミクスセットに焦点をあてて、そのような手法の性能と効率を最小化するための一歩を踏み出した。
論文 参考訳(メタデータ) (2019-12-26T16:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。