論文の概要: Black Box Lie Group Preconditioners for SGD
- arxiv url: http://arxiv.org/abs/2211.04422v1
- Date: Tue, 8 Nov 2022 18:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:36:47.830193
- Title: Black Box Lie Group Preconditioners for SGD
- Title(参考訳): SGDのためのBlack Box Lie Groupプレコンディショナー
- Authors: Xilin Li
- Abstract要約: 勾配降下の収束を加速するために,行列自由および低階近似プレコンディショナーを提案する。
パラメータ更新の学習速度とプレコンディショナリングのステップサイズは自然に正規化され、デフォルト値はほとんどの状況でうまく機能する。
- 参考スコア(独自算出の注目度): 13.30021794793606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A matrix free and a low rank approximation preconditioner are proposed to
accelerate the convergence of stochastic gradient descent (SGD) by exploiting
curvature information sampled from Hessian-vector products or finite
differences of parameters and gradients similar to the BFGS algorithm. Both
preconditioners are fitted with an online updating manner minimizing a
criterion that is free of line search and robust to stochastic gradient noise,
and further constrained to be on certain connected Lie groups to preserve their
corresponding symmetry or invariance, e.g., orientation of coordinates by the
connected general linear group with positive determinants. The Lie group's
equivariance property facilitates preconditioner fitting, and its invariance
property saves any need of damping, which is common in second-order optimizers,
but difficult to tune. The learning rate for parameter updating and step size
for preconditioner fitting are naturally normalized, and their default values
work well in most situations.
- Abstract(参考訳): BFGSアルゴリズムと同様のパラメータと勾配の有限差やヘッセンベクトル積から採取した曲率情報を利用することにより、確率勾配降下(SGD)の収束を加速する行列自由および低階近似プレコンディショナーを提案する。
どちらのプレコンディショナーも、ライン探索が不要で確率勾配雑音に頑健な基準を最小化できるオンライン更新方式を備えており、さらに特定の連結リー群上にいて対応する対称性や不変性、例えば正の行列を持つ連結一般線型群による座標の向きを保つことが制約されている。
リー群の同分散性はプリコンディショナーフィッティングを助長し、その不変性性は2階最適化器では一般的であるがチューニングが難しい減衰のいかなる必要も省く。
パラメータ更新の学習レートとプリコンディショナーフィッティングのステップサイズは自然に正規化され、デフォルト値はほとんどの状況でうまく機能する。
関連論文リスト
- Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Stochastic Hessian Fittings with Lie Groups [6.626539885456148]
最適化問題としてのヘシアンフィッティングは、特定のが一般のリー群を持つ穏やかな条件下では強く凸である。
この発見により、ヘシアンフィッティングはよく振る舞う最適化問題となり、大規模最適化のための高効率でエレガントなリー群スパースプレコンディショナーフィッティング法の設計が容易になる。
論文 参考訳(メタデータ) (2024-02-19T06:00:35Z) - Curvature-Informed SGD via General Purpose Lie-Group Preconditioners [6.760212042305871]
曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-07T03:18:00Z) - Adaptive Step Sizes for Preconditioned Stochastic Gradient Descent [0.3831327965422187]
本稿では,勾配降下(SGD)における適応ステップサイズに対する新しいアプローチを提案する。
我々は、勾配に対するリプシッツ定数と探索方向の局所的分散の概念という、数値的にトレース可能な量を用いる。
論文 参考訳(メタデータ) (2023-11-28T17:03:56Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Convergence of adaptive algorithms for weakly convex constrained
optimization [59.36386973876765]
モローエンベロープの勾配のノルムに対して$mathcaltilde O(t-1/4)$収束率を証明する。
我々の分析では、最小バッチサイズが1ドル、定数が1位と2位のモーメントパラメータが1ドル、そしておそらくスムーズな最適化ドメインで機能する。
論文 参考訳(メタデータ) (2020-06-11T17:43:19Z) - On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。
解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文 参考訳(メタデータ) (2018-08-16T20:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。