論文の概要: Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for
Nonconvex Stochastic Optimization
- arxiv url: http://arxiv.org/abs/2009.13586v6
- Date: Fri, 20 Aug 2021 05:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:14:30.504410
- Title: Apollo: An Adaptive Parameter-wise Diagonal Quasi-Newton Method for
Nonconvex Stochastic Optimization
- Title(参考訳): Apollo: 非凸確率最適化のための適応パラメータワイド準ニュートン法
- Authors: Xuezhe Ma
- Abstract要約: 非ギスブ最適化のための準ニュートン法を導入し、ヘッセンによる損失の曲率を動的に組み込む。
アルゴリズムの実装はhttps://www.xuezmax.com/XuezMax/apolloで公開されている。
- 参考スコア(独自算出の注目度): 17.219297142656828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Apollo, a quasi-Newton method for nonconvex
stochastic optimization, which dynamically incorporates the curvature of the
loss function by approximating the Hessian via a diagonal matrix. Importantly,
the update and storage of the diagonal approximation of Hessian is as efficient
as adaptive first-order optimization methods with linear complexity for both
time and memory. To handle nonconvexity, we replace the Hessian with its
rectified absolute value, which is guaranteed to be positive-definite.
Experiments on three tasks of vision and language show that Apollo achieves
significant improvements over other stochastic optimization methods, including
SGD and variants of Adam, in term of both convergence speed and generalization
performance. The implementation of the algorithm is available at
https://github.com/XuezheMax/apollo.
- Abstract(参考訳): 本稿では,非凸確率最適化のための準ニュートン法であるApolloを紹介し,対角行列を用いてヘッセンを近似することにより損失関数の曲率を動的に組み込む。
重要なことに、ヘッセンの対角近似の更新と保存は、時間とメモリの両方に線形複雑性を持つ適応一階最適化法と同じくらい効率的である。
非凸性を扱うために、ヘシアンを正定値に置き換え、正定値であることが保証される。
視覚と言語に関する3つのタスクの実験から、アポロは収束速度と一般化性能の両方の観点から、SGDやAdamの変種を含む他の確率最適化手法よりも大幅に改善されていることが示されている。
アルゴリズムの実装はhttps://github.com/xuezhemax/apolloで利用可能である。
関連論文リスト
- Information-Theoretic Trust Regions for Stochastic Gradient-Based
Optimization [17.79206971486723]
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
我々は、勾配からヘッセンの対角要素を近似し、1次情報のみを用いて予測されたヘッセンのモデルを構築する。
arTuROは適応モーメントベース最適化の高速収束とSGDの機能を組み合わせたものであることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:08:38Z) - Series of Hessian-Vector Products for Tractable Saddle-Free Newton
Optimisation of Neural Networks [1.3654846342364308]
絶対値固有値を持つ正逆 Hessian を,一階乗算可能な最適化アルゴリズムで効率的に利用できることを示す。
この級数のt-runは、他の1階と2階の最適化手法に匹敵する新しい最適化を提供する。
論文 参考訳(メタデータ) (2023-10-23T13:11:30Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Faster Optimization on Sparse Graphs via Neural Reparametrization [15.275428333269453]
グラフニューラルネットワークは,10-100倍の係数で最適化を高速化する,効率的な準ニュートン法を実装可能であることを示す。
本稿では, 熱拡散, 同期, 持続的ホモロジーなどの科学的問題に対する本手法の適用について述べる。
論文 参考訳(メタデータ) (2022-05-26T20:52:18Z) - Improved Convergence Rate of Stochastic Gradient Langevin Dynamics with
Variance Reduction and its Application to Optimization [50.83356836818667]
勾配ランゲヴィン・ダイナミクスは非エプス最適化問題を解くための最も基本的なアルゴリズムの1つである。
本稿では、このタイプの2つの変種、すなわち、分散還元ランジュバンダイナミクスと再帰勾配ランジュバンダイナミクスを示す。
論文 参考訳(メタデータ) (2022-03-30T11:39:00Z) - BiAdam: Fast Adaptive Bilevel Optimization Methods [104.96004056928474]
バイレベル最適化は多くの応用のために機械学習への関心が高まっている。
制約付き最適化と制約なし最適化の両方に有用な分析フレームワークを提供する。
論文 参考訳(メタデータ) (2021-06-21T20:16:40Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - Slowly Varying Regression under Sparsity [5.22980614912553]
本稿では, 緩やかな過度回帰の枠組みを提示し, 回帰モデルが緩やかかつスパースな変動を示すようにした。
本稿では,バイナリ凸アルゴリズムとして再構成する手法を提案する。
結果として得られたモデルは、様々なデータセット間で競合する定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-22T04:51:44Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。