論文の概要: Adaptive Strategies in Non-convex Optimization
- arxiv url: http://arxiv.org/abs/2306.10278v2
- Date: Fri, 7 Jul 2023 00:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:56:02.621485
- Title: Adaptive Strategies in Non-convex Optimization
- Title(参考訳): 非凸最適化における適応戦略
- Authors: Zhenxun Zhuang
- Abstract要約: アルゴリズムは、そのようなパラメータの事前知識を必要としない場合、あるパラメータに適応すると言われている。
この論文は3つのシナリオにおける適応アルゴリズムの研究を示す。
- 参考スコア(独自算出の注目度): 5.279475826661643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An algorithm is said to be adaptive to a certain parameter (of the problem)
if it does not need a priori knowledge of such a parameter but performs
competitively to those that know it. This dissertation presents our work on
adaptive algorithms in following scenarios: 1. In the stochastic optimization
setting, we only receive stochastic gradients and the level of noise in
evaluating them greatly affects the convergence rate. Tuning is typically
required when without prior knowledge of the noise scale in order to achieve
the optimal rate. Considering this, we designed and analyzed noise-adaptive
algorithms that can automatically ensure (near)-optimal rates under different
noise scales without knowing it. 2. In training deep neural networks, the
scales of gradient magnitudes in each coordinate can scatter across a very wide
range unless normalization techniques, like BatchNorm, are employed. In such
situations, algorithms not addressing this problem of gradient scales can
behave very poorly. To mitigate this, we formally established the advantage of
scale-free algorithms that adapt to the gradient scales and presented its real
benefits in empirical experiments. 3. Traditional analyses in non-convex
optimization typically rely on the smoothness assumption. Yet, this condition
does not capture the properties of some deep learning objective functions,
including the ones involving Long Short-Term Memory networks and Transformers.
Instead, they satisfy a much more relaxed condition, with potentially unbounded
smoothness. Under this condition, we show that a generalized SignSGD algorithm
can theoretically match the best-known convergence rates obtained by SGD with
gradient clipping but does not need explicit clipping at all, and it can
empirically match the performance of Adam and beat others. Moreover, it can
also be made to automatically adapt to the unknown relaxed smoothness.
- Abstract(参考訳): アルゴリズムが特定のパラメータ(問題の)に適応するとは、そのようなパラメータの事前知識を必要としないが、そのパラメータを知っていれば競合的に実行する。
この論文は、以下のシナリオで適応アルゴリズムに関する我々の研究を示す。
1) 確率的最適化設定では, 確率的勾配のみを受け取り, 評価における雑音のレベルが収束率に大きく影響する。
チューニングは通常、最適な速度を達成するためにノイズスケールの事前知識がなければ要求される。
これを考慮し,ノイズ適応アルゴリズムを設計・解析し,異なる雑音スケール下で(ほぼ)最適速度を自動的に保証する。
2. ディープニューラルネットワークのトレーニングでは,BatchNormのような正規化技術を使用しない限り,各座標の勾配のスケールが非常に広い範囲に散らばることができる。
このような状況では、勾配スケールの問題に対処しないアルゴリズムは非常に不適切な振る舞いをする。
これを緩和するために,グラデーションスケールに適応するスケールフリーアルゴリズムの利点を正式に確立し,その実効性を実証実験で提示した。
3.非凸最適化における従来の解析は、通常滑らかさの仮定に依存する。
しかし、この条件はLong Short-Term Memory NetworkやTransformerなど、ディープラーニングの目的関数の特性を捉えていない。
その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。
この条件下では、一般化されたSignSGDアルゴリズムは、SGDが得られる最もよく知られた収束率と勾配クリッピングとを理論的に一致させることができるが、明示的なクリッピングを全く必要とせず、Adamの性能と実証的に一致し、他者を打ち負かすことができることを示す。
さらに、未知のリラックスした滑らかさに自動的に適応させることもできる。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Random Scaling and Momentum for Non-smooth Non-convex Optimization [38.443430569753026]
ニューラルネットワークのトレーニングには、非常に不規則な、特に凸や滑らかな損失関数が必要である。
一般的なトレーニングアルゴリズムは運動量による勾配降下(SGDM)に基づいており、損失が凸あるいは滑らかである場合にのみ解析が適用される。
論文 参考訳(メタデータ) (2024-05-16T00:52:03Z) - Robustness to Unbounded Smoothness of Generalized SignSGD [25.07411035728305]
本稿では,SignSGD-typeおよびAdamtypeアルゴリズムの解析において,モーメントが重要な役割を果たすことを示す。
我々はこれらのアルゴリズムを一般的なタスクと比較し、他のタスクを叩きながらAdamのパフォーマンスにマッチできることを観察した。
論文 参考訳(メタデータ) (2022-08-23T21:11:19Z) - Greedy versus Map-based Optimized Adaptive Algorithms for
random-telegraph-noise mitigation by spectator qubits [6.305016513788048]
データストレージキュービットを可能な限り分離したままにしておくシナリオでは、ノイズプローブを追加してノイズ軽減を行うことができる。
量子ビット上の射影的測定を仮定した理論モデルを構築し、異なる測定・制御戦略の性能を導出する。
解析的および数値的に、MOAAARは、特にSQの高雑音感度状態において、Greedyアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-25T08:25:10Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。