論文の概要: Expectigrad: Fast Stochastic Optimization with Robust Convergence
Properties
- arxiv url: http://arxiv.org/abs/2010.01356v2
- Date: Tue, 12 Oct 2021 17:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 08:54:37.294547
- Title: Expectigrad: Fast Stochastic Optimization with Robust Convergence
Properties
- Title(参考訳): expectigrad:ロバスト収束特性を持つ高速確率最適化
- Authors: Brett Daley and Christopher Amato
- Abstract要約: そこで本稿では,数値と分母を連立して,すべての歴史的運動量項の成分ごとの非重み付き平均値に応じて調整を行う,期待段階という新しい手法を提案する。
我々は、Adam の発散を引き起こすことが知られている勾配最適化問題のすべての事例において、期待度が分岐できないことを証明した。
- 参考スコア(独自算出の注目度): 18.973116252065278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many popular adaptive gradient methods such as Adam and RMSProp rely on an
exponential moving average (EMA) to normalize their stepsizes. While the EMA
makes these methods highly responsive to new gradient information, recent
research has shown that it also causes divergence on at least one convex
optimization problem. We propose a novel method called Expectigrad, which
adjusts stepsizes according to a per-component unweighted mean of all
historical gradients and computes a bias-corrected momentum term jointly
between the numerator and denominator. We prove that Expectigrad cannot diverge
on every instance of the optimization problem known to cause Adam to diverge.
We also establish a regret bound in the general stochastic nonconvex setting
that suggests Expectigrad is less susceptible to gradient variance than
existing methods are. Testing Expectigrad on several high-dimensional machine
learning tasks, we find it often performs favorably to state-of-the-art methods
with little hyperparameter tuning.
- Abstract(参考訳): adamやrmspropのような多くの一般的な適応勾配法は、ステップ化を正規化するために指数移動平均(ema)に依存する。
EMAはこれらの手法を新しい勾配情報に高い応答性を与えるが、最近の研究では少なくとも1つの凸最適化問題にばらつきを引き起こすことも示されている。
本稿では,すべての履歴勾配の成分ごとの非重み付け平均に従ってステップを調整し,ニュミレータとデノミネータを結合してバイアス補正モーメント項を計算する,expigradと呼ばれる新しい手法を提案する。
我々は、Adamを分岐させる最適化問題のすべての事例において、期待度が分岐できないことを証明した。
また、一般確率的非凸設定において、期待段階が既存の方法よりも勾配分散の影響を受けにくいことを示唆する後悔境界を確立する。
いくつかの高次元機械学習タスクを期待してテストすると、ハイパーパラメータチューニングの少ない最先端の手法に好適に機能することが多い。
関連論文リスト
- ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Convergence Properties of Stochastic Hypergradients [38.64355126221992]
大規模データセットにおける低レベルの問題が経験的リスクである場合に重要となる過勾配の近似スキームについて検討する。
本研究では,理論解析を支援する数値実験を行い,実際にハイパーグラディエントを用いることの利点を示す。
論文 参考訳(メタデータ) (2020-11-13T20:50:36Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Adaptive First-and Zeroth-order Methods for Weakly Convex Stochastic
Optimization Problems [12.010310883787911]
我々は、弱凸(おそらく非滑らかな)最適化問題の重要なクラスを解くための、適応的な段階的な新しい手法の族を解析する。
実験結果から,提案アルゴリズムが0次勾配降下と設計変動を経験的に上回ることを示す。
論文 参考訳(メタデータ) (2020-05-19T07:44:52Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。