論文の概要: Adaptive Strategies in Non-convex Optimization
- arxiv url: http://arxiv.org/abs/2306.10278v2
- Date: Fri, 7 Jul 2023 00:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 14:56:02.621485
- Title: Adaptive Strategies in Non-convex Optimization
- Title(参考訳): 非凸最適化における適応戦略
- Authors: Zhenxun Zhuang
- Abstract要約: アルゴリズムは、そのようなパラメータの事前知識を必要としない場合、あるパラメータに適応すると言われている。
この論文は3つのシナリオにおける適応アルゴリズムの研究を示す。
- 参考スコア(独自算出の注目度): 5.279475826661643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An algorithm is said to be adaptive to a certain parameter (of the problem)
if it does not need a priori knowledge of such a parameter but performs
competitively to those that know it. This dissertation presents our work on
adaptive algorithms in following scenarios: 1. In the stochastic optimization
setting, we only receive stochastic gradients and the level of noise in
evaluating them greatly affects the convergence rate. Tuning is typically
required when without prior knowledge of the noise scale in order to achieve
the optimal rate. Considering this, we designed and analyzed noise-adaptive
algorithms that can automatically ensure (near)-optimal rates under different
noise scales without knowing it. 2. In training deep neural networks, the
scales of gradient magnitudes in each coordinate can scatter across a very wide
range unless normalization techniques, like BatchNorm, are employed. In such
situations, algorithms not addressing this problem of gradient scales can
behave very poorly. To mitigate this, we formally established the advantage of
scale-free algorithms that adapt to the gradient scales and presented its real
benefits in empirical experiments. 3. Traditional analyses in non-convex
optimization typically rely on the smoothness assumption. Yet, this condition
does not capture the properties of some deep learning objective functions,
including the ones involving Long Short-Term Memory networks and Transformers.
Instead, they satisfy a much more relaxed condition, with potentially unbounded
smoothness. Under this condition, we show that a generalized SignSGD algorithm
can theoretically match the best-known convergence rates obtained by SGD with
gradient clipping but does not need explicit clipping at all, and it can
empirically match the performance of Adam and beat others. Moreover, it can
also be made to automatically adapt to the unknown relaxed smoothness.
- Abstract(参考訳): アルゴリズムが特定のパラメータ(問題の)に適応するとは、そのようなパラメータの事前知識を必要としないが、そのパラメータを知っていれば競合的に実行する。
この論文は、以下のシナリオで適応アルゴリズムに関する我々の研究を示す。
1) 確率的最適化設定では, 確率的勾配のみを受け取り, 評価における雑音のレベルが収束率に大きく影響する。
チューニングは通常、最適な速度を達成するためにノイズスケールの事前知識がなければ要求される。
これを考慮し,ノイズ適応アルゴリズムを設計・解析し,異なる雑音スケール下で(ほぼ)最適速度を自動的に保証する。
2. ディープニューラルネットワークのトレーニングでは,BatchNormのような正規化技術を使用しない限り,各座標の勾配のスケールが非常に広い範囲に散らばることができる。
このような状況では、勾配スケールの問題に対処しないアルゴリズムは非常に不適切な振る舞いをする。
これを緩和するために,グラデーションスケールに適応するスケールフリーアルゴリズムの利点を正式に確立し,その実効性を実証実験で提示した。
3.非凸最適化における従来の解析は、通常滑らかさの仮定に依存する。
しかし、この条件はLong Short-Term Memory NetworkやTransformerなど、ディープラーニングの目的関数の特性を捉えていない。
その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。
この条件下では、一般化されたSignSGDアルゴリズムは、SGDが得られる最もよく知られた収束率と勾配クリッピングとを理論的に一致させることができるが、明示的なクリッピングを全く必要とせず、Adamの性能と実証的に一致し、他者を打ち負かすことができることを示す。
さらに、未知のリラックスした滑らかさに自動的に適応させることもできる。
関連論文リスト
- Robustness to Unbounded Smoothness of Generalized SignSGD [25.07411035728305]
本稿では,SignSGD-typeおよびAdamtypeアルゴリズムの解析において,モーメントが重要な役割を果たすことを示す。
我々はこれらのアルゴリズムを一般的なタスクと比較し、他のタスクを叩きながらAdamのパフォーマンスにマッチできることを観察した。
論文 参考訳(メタデータ) (2022-08-23T21:11:19Z) - Greedy versus Map-based Optimized Adaptive Algorithms for
random-telegraph-noise mitigation by spectator qubits [6.305016513788048]
データストレージキュービットを可能な限り分離したままにしておくシナリオでは、ノイズプローブを追加してノイズ軽減を行うことができる。
量子ビット上の射影的測定を仮定した理論モデルを構築し、異なる測定・制御戦略の性能を導出する。
解析的および数値的に、MOAAARは、特にSQの高雑音感度状態において、Greedyアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-25T08:25:10Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Near-Optimal High Probability Complexity Bounds for Non-Smooth
Stochastic Optimization with Heavy-Tailed Noise [63.304196997102494]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
既存の非滑らか凸最適化法は、負のパワーまたは対数的な信頼度に依存する境界の複雑さを持つ。
クリッピングを用いた2つの勾配法に対して, 新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Projection-Free Adaptive Gradients for Large-Scale Optimization [22.0439695290991]
フランク=ウルフアルゴリズムは、目的から近似した一階情報のみをクエリすることで、両方の計算負担を軽減するため、ユニークな位置を占める。
本手法は,制約付き最適化のための適応アルゴリズムの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-09-29T15:56:12Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。