論文の概要: Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates
- arxiv url: http://arxiv.org/abs/2110.12634v1
- Date: Mon, 25 Oct 2021 04:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 05:16:42.551008
- Title: Accelerated Almost-Sure Convergence Rates for Nonconvex Stochastic
Gradient Descent using Stochastic Learning Rates
- Title(参考訳): 確率的学習率を用いた非凸確率勾配降下の近似収束速度の高速化
- Authors: Theodoros Mamalis, Dusan Stipanovic, Petros Voulgaris
- Abstract要約: 本稿では、グラディエント・ダイアンスの勾配空間収束率のほぼ全周収束率を用いて、大規模最適化問題を解く。
特に、その学習速度は乗算学習率を備えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale optimization problems require algorithms both effective and
efficient. One such popular and proven algorithm is Stochastic Gradient Descent
which uses first-order gradient information to solve these problems. This paper
studies almost-sure convergence rates of the Stochastic Gradient Descent method
when instead of deterministic, its learning rate becomes stochastic. In
particular, its learning rate is equipped with a multiplicative stochasticity,
producing a stochastic learning rate scheme. Theoretical results show
accelerated almost-sure convergence rates of Stochastic Gradient Descent in a
nonconvex setting when using an appropriate stochastic learning rate, compared
to a deterministic-learning-rate scheme. The theoretical results are verified
empirically.
- Abstract(参考訳): 大規模最適化には効率的かつ効率的なアルゴリズムが必要である。
そのような人気があり証明されたアルゴリズムの1つは、Stochastic Gradient Descentであり、これらの問題を解決するために一階勾配情報を使用する。
本稿では,確率勾配降下法が決定論的ではなく確率的になる場合のほぼ確実な収束率について検討する。
特に、その学習率には乗法確率性が備わっており、確率的学習率スキームを生成する。
理論的には, 確率的学習率を用いた場合の非凸環境における確率的勾配降下のほぼ確実収束率を, 決定論的学習速度法と比較した。
理論的結果は実証的に検証される。
関連論文リスト
- Using Stochastic Gradient Descent to Smooth Nonconvex Functions: Analysis of Implicit Graduated Optimization with Optimal Noise Scheduling [0.6906005491572401]
本稿は,大規模なバッチサイズが急激な局所最小値に陥る理由,学習速度の低下とバッチサイズの増加が,固定的な学習速度よりも優れている理由,学習速度の最適性について理論的知見を提供する。
論文 参考訳(メタデータ) (2023-11-15T07:27:40Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Backward error analysis and the qualitative behaviour of stochastic
optimization algorithms: Application to stochastic coordinate descent [1.534667887016089]
一般最適化法の力学を近似した微分方程式のクラスを提案する。
座標降下の場合の修正方程式の安定性について検討する。
論文 参考訳(メタデータ) (2023-09-05T09:39:56Z) - Byzantine-Robust Decentralized Stochastic Optimization with Stochastic
Gradient Noise-Independent Learning Error [25.15075119957447]
分散ネットワーク上でのビザンチン-ロバスト最適化について検討し、各エージェントが近隣のエージェントと定期的に通信して局所モデルを交換し、勾配降下(SGD)により独自の局所モデルを更新する。
このような手法の性能は、最適化プロセス中に逆向きに実行される未知数のビザンチンエージェントに影響される。
論文 参考訳(メタデータ) (2023-08-10T02:14:23Z) - One-step corrected projected stochastic gradient descent for statistical estimation [49.1574468325115]
これは、Fisherスコアリングアルゴリズムの1ステップで修正されたログ様関数の予測勾配勾配に基づいている。
理論およびシミュレーションにより、平均勾配勾配や適応勾配勾配の通常の勾配勾配の代替として興味深いものであることを示す。
論文 参考訳(メタデータ) (2023-06-09T13:43:07Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Random-reshuffled SARAH does not need a full gradient computations [61.85897464405715]
StochAstic Recursive grAdientritHm (SARAH)アルゴリズムは、Gradient Descent (SGD)アルゴリズムのばらつき低減版である。
本稿では,完全勾配の必要性を除去する。
集約された勾配は、SARAHアルゴリズムの完全な勾配の見積もりとなる。
論文 参考訳(メタデータ) (2021-11-26T06:00:44Z) - Stochastic Learning Rate Optimization in the Stochastic Approximation
and Online Learning Settings [0.0]
本研究では、最適化アルゴリズムの学習率に乗法性を適用し、学習速度スキームを創出する。
本研究では,この学習率スキームを備えたグラディエントDescentの理論的収束結果を示す。
論文 参考訳(メタデータ) (2021-10-20T18:10:03Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Stochastic gradient descent with random learning rate [0.0]
本稿では,一様分散ランダム学習率でニューラルネットワークを最適化することを提案する。
ランダムな学習率プロトコルを周期的および定常的なプロトコルと比較することにより、ランダムな選択は、一般に小規模学習率体系における最良の戦略であると示唆する。
我々は、MNISTデータセットとCIFAR10データセットの画像分類のための、浅い、完全に接続された、深い、畳み込みニューラルネットワークの実験を通じて、支持エビデンスを提供する。
論文 参考訳(メタデータ) (2020-03-15T21:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。