論文の概要: FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive
Optimizer by Strong Convexity
- arxiv url: http://arxiv.org/abs/2104.13790v1
- Date: Wed, 28 Apr 2021 14:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 16:20:35.171325
- Title: FastAdaBelief: Improving Convergence Rate for Belief-based Adaptive
Optimizer by Strong Convexity
- Title(参考訳): FastAdaBelief:強い凸性による信頼に基づく適応最適化器の収束率の向上
- Authors: Yangfan Zhou, Kaizhu Huang, Cheng Cheng, Xuguang Wang, and Xin Liu
- Abstract要約: adabeliefは、目的関数が凸であるときにデータ依存の$o(sqrtt)$ regretboundを持つことが証明される。
FastAdaBeliefはデータ依存の$O(log T)$ regret boundを獲得し、AdaBeliefよりもかなり低い。
- 参考スコア(独自算出の注目度): 18.574347583083824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The AdaBelief algorithm demonstrates superior generalization ability to the
Adam algorithm by viewing the exponential moving average of observed gradients.
AdaBelief is proved to have a data-dependent $O(\sqrt{T})$ regret bound when
objective functions are convex, where $T$ is a time horizon. However, it
remains to be an open problem on how to exploit strong convexity to further
improve the convergence rate of AdaBelief. To tackle this problem, we present a
novel optimization algorithm under strong convexity, called FastAdaBelief. We
prove that FastAdaBelief attains a data-dependant $O(\log T)$ regret bound,
which is substantially lower than AdaBelief. In addition, the theoretical
analysis is validated by extensive experiments performed on open datasets
(i.e., CIFAR-10 and Penn Treebank) for image classification and language
modeling.
- Abstract(参考訳): adabeliefアルゴリズムは、観測された勾配の指数的移動平均を見ることにより、adamアルゴリズムの優れた一般化能力を示す。
AdaBelief はデータ依存の $O(\sqrt{T})$ regret bound を持つことが証明されている。
しかし、AdaBeliefの収束率をさらに向上させるために、強い凸性を利用する方法については、未解決の問題である。
この問題に対処するため,我々はfastadabeliefと呼ばれる強い凸性を持つ新しい最適化アルゴリズムを提案する。
我々は、FastAdaBeliefがデータ依存の$O(\log T)$ regret boundを達成したことを証明している。
さらに、画像分類と言語モデリングのために、オープンデータセット(CIFAR-10とPenn Treebank)上で行われた広範な実験によって理論解析が検証される。
関連論文リスト
- Revisiting the Last-Iterate Convergence of Stochastic Gradient Methods [25.831462008050387]
グラディエント・Descent(SGD)アルゴリズムは、実際の性能が良く、理論的な理解が欠如していることから、人々の関心を喚起している。
有限収束がより広い合成最適化や非ユークリッドノルムに証明可能な拡張が可能かどうかはまだ不明である。
論文 参考訳(メタデータ) (2023-12-13T21:41:06Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Min-Max Optimization under Delays [26.830212508878162]
大規模な機械学習問題では遅延と非同期は避けられない。
min-max最適化に類似した理論は存在しない。
たとえ小さな遅延であっても、エクストラグラディエントのような顕著なアルゴリズムが分岐する可能性があることを示す。
論文 参考訳(メタデータ) (2023-07-13T16:39:01Z) - Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。
また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文 参考訳(メタデータ) (2023-04-27T06:27:37Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - A Study of Condition Numbers for First-Order Optimization [12.072067586666382]
我々は*-ノルムと呼ばれる新しいノルムによって定量化された摂動のクラスを導入する。
滑らかさと強い凸性は任意に小さい摂動に強く影響される。
本稿では,ロバストなチューニング戦略に不可欠なメトリクスの連続性の概念を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:17:48Z) - Linear Last-iterate Convergence in Constrained Saddle-point Optimization [48.44657553192801]
我々は、OGDA(Optimistic Gradient Descent Ascent)とOMWU(Optimistic Multiplicative Weights Update)に対する最終段階の独特さの理解を著しく拡大する。
平衡が一意である場合、線形終端収束は、値が普遍定数に設定された学習速度で達成されることを示す。
任意のポリトープ上の双線型ゲームがこの条件を満たすことを示し、OGDAは一意の平衡仮定なしで指数関数的に高速に収束することを示した。
論文 参考訳(メタデータ) (2020-06-16T20:53:04Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Accelerated Learning with Robustness to Adversarial Regressors [1.0499611180329802]
本稿では,逆回帰器の存在下での安定性と収束性を保証する離散時間アルゴリズムを提案する。
特に、回帰器が一定である場合、我々のアルゴリズムは少なくとも $tildemathcalO (1/sqrtepsilon)$ において $epsilon$ 準最適点に達する。
論文 参考訳(メタデータ) (2020-05-04T14:42:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。