論文の概要: Escaping Saddle Points Efficiently with Occupation-Time-Adapted
Perturbations
- arxiv url: http://arxiv.org/abs/2005.04507v3
- Date: Sun, 27 Mar 2022 02:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 07:09:07.022084
- Title: Escaping Saddle Points Efficiently with Occupation-Time-Adapted
Perturbations
- Title(参考訳): 作業時間適応摂動によるサドルポイントの逃避
- Authors: Xin Guo, Jiequn Han, Mahan Tajrobehkar, Wenpin Tang
- Abstract要約: 自己反発型ランダムウォークの超拡散性により,最適化アルゴリズムのための新しい摂動機構を開発した。
2つの新しいアルゴリズムが提案されている: 占有時間に適応した摂動勾配降下とその加速バージョン。
- 参考スコア(独自算出の注目度): 12.251606057991237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by the super-diffusivity of self-repelling random walk, which has
roots in statistical physics, this paper develops a new perturbation mechanism
for optimization algorithms. In this mechanism, perturbations are adapted to
the history of states via the notion of occupation time. After integrating this
mechanism into the framework of perturbed gradient descent (PGD) and perturbed
accelerated gradient descent (PAGD), two new algorithms are proposed: perturbed
gradient descent adapted to occupation time (PGDOT) and its accelerated version
(PAGDOT). PGDOT and PAGDOT are shown to converge to second-order stationary
points at least as fast as PGD and PAGD, respectively, and thus they are
guaranteed to avoid getting stuck at non-degenerate saddle points. The
theoretical analysis is corroborated by empirical studies in which the new
algorithms consistently escape saddle points and outperform not only their
counterparts, PGD and PAGD, but also other popular alternatives including
stochastic gradient descent, Adam, AMSGrad, and RMSProp.
- Abstract(参考訳): 統計物理学にルーツを持つ自己退避型ランダムウォークの超拡散性により、最適化アルゴリズムのための新しい摂動機構を開発する。
このメカニズムでは、摂動は占領時間の概念を通じて国家の歴史に適応される。
この機構を摂動勾配降下(PGD)と摂動勾配降下(PAGD)の枠組みに組み込んだ後, 占有時間(PGDOT)に適応した摂動勾配降下(PAGDOT)と, その加速バージョン(PAGDOT)の2つの新しいアルゴリズムを提案する。
PGDOT と PAGDOT はそれぞれ、PGD と PAGD と同程度の速さで2次定常点に収束することが示され、非退化サドル点で立ち往生することを避けることが保証される。
理論解析は、新しいアルゴリズムがサドルポイントから一貫して脱出し、pgdやpagdだけでなく、確率勾配降下、adam、amsgrad、rmspropといった他の一般的な代替手段よりも優れているという実証研究によって裏付けられている。
関連論文リスト
- Flattened one-bit stochastic gradient descent: compressed distributed optimization with controlled variance [55.01966743652196]
パラメータ・サーバ・フレームワークにおける圧縮勾配通信を用いた分散勾配降下(SGD)のための新しいアルゴリズムを提案する。
平坦な1ビット勾配勾配勾配法(FO-SGD)は2つの単純なアルゴリズムの考え方に依存している。
論文 参考訳(メタデータ) (2024-05-17T21:17:27Z) - Rethinking PGD Attack: Is Sign Function Necessary? [131.6894310945647]
本稿では,このような手話に基づく更新アルゴリズムが段階的攻撃性能にどのように影響するかを理論的に分析する。
本稿では,手話の使用を排除したRGDアルゴリズムを提案する。
提案したRGDアルゴリズムの有効性は実験で広く実証されている。
論文 参考訳(メタデータ) (2023-12-03T02:26:58Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error [25.15075119957447]
分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
論文 参考訳(メタデータ) (2023-08-10T02:14:23Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - GTAdam: Gradient Tracking with Adaptive Momentum for Distributed Online
Optimization [4.103281325880475]
本稿では、中央コーディネータを使わずに、局所的な計算と通信によって、オンライン最適化問題を分散的に解決することを目的とした、計算機エージェントのネットワークを扱う。
本稿では,適応運動量推定法(GTAdam)を用いた勾配追従法と,勾配の1次および2次運動量推定法を組み合わせた勾配追従法を提案する。
マルチエージェント学習によるこれらの数値実験では、GTAdamは最先端の分散最適化手法よりも優れている。
論文 参考訳(メタデータ) (2020-09-03T15:20:21Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Bounding the expected run-time of nonconvex optimization with early
stopping [2.7648976108201815]
本研究は,検証関数に基づく早期停止を用いた勾配に基づく最適化アルゴリズムの収束性について検討する。
我々は、この停止規則が適切に定義されていることを保証する条件を導出し、この基準を満たすのに必要なイテレーション数と勾配評価の期待値のバウンダリを提供する。
論文 参考訳(メタデータ) (2020-02-20T16:43:37Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。