論文の概要: Curvature-Informed SGD via General Purpose Lie-Group Preconditioners
- arxiv url: http://arxiv.org/abs/2402.04553v1
- Date: Wed, 7 Feb 2024 03:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 16:52:00.198729
- Title: Curvature-Informed SGD via General Purpose Lie-Group Preconditioners
- Title(参考訳): 汎用リー群プレコンディショナーによる曲率インフォームドSGD
- Authors: Omead Pooladzandi and Xi-Lin Li
- Abstract要約: 曲率情報を利用して勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープレコンディショナーと低ランクプレコンディショナーの2つのプレコンディショナーを含む。
プレコンディショニングされたSGD(PSGD)は、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.760212042305871
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel approach to accelerate stochastic gradient descent (SGD)
by utilizing curvature information obtained from Hessian-vector products or
finite differences of parameters and gradients, similar to the BFGS algorithm.
Our approach involves two preconditioners: a matrix-free preconditioner and a
low-rank approximation preconditioner. We update both preconditioners online
using a criterion that is robust to stochastic gradient noise and does not
require line search or damping. To preserve the corresponding symmetry or
invariance, our preconditioners are constrained to certain connected Lie
groups. The Lie group's equivariance property simplifies the preconditioner
fitting process, while its invariance property eliminates the need for damping,
which is commonly required in second-order optimizers. As a result, the
learning rate for parameter updating and the step size for preconditioner
fitting are naturally normalized, and their default values work well in most
scenarios. Our proposed approach offers a promising direction for improving the
convergence of SGD with low computational overhead. We demonstrate that
Preconditioned SGD (PSGD) outperforms SoTA on Vision, NLP, and RL tasks across
multiple modern deep-learning architectures. We have provided code for
reproducing toy and large scale experiments in this paper.
- Abstract(参考訳): 本稿では,Hessian-vector製品から得られた曲率情報や,BFGSアルゴリズムと同様のパラメータと勾配の有限差を利用して,確率勾配降下(SGD)を加速する新しい手法を提案する。
提案手法は,行列フリープリコンディショナーと低ランク近似プリコンディショナーの2つのプリコンディショナーを含む。
確率的勾配雑音に頑健で,線探索や減衰を必要としない基準を用いて,両方のプリコンディショナーをオンラインで更新する。
対応する対称性や不変性を維持するために、プレコンディショナーはある種の連結リー群に制約される。
リー群の等分散性はプレコンディショナリング過程を単純化し、その不変性は2階オプティマイザで一般的に必要とされる減衰の必要性を排除している。
その結果、パラメータ更新の学習率とプレコンディショナリングのステップサイズは自然に正規化され、デフォルト値はほとんどのシナリオでうまく機能する。
提案手法は計算オーバーヘッドの少ないSGDの収束を改善するための有望な方向を提供する。
プレコンディショニングされたSGD(PSGD)は、複数の現代のディープラーニングアーキテクチャにおいて、ビジョン、NLP、RLタスクにおいてSoTAよりも優れていることを示す。
本稿では,玩具を再現するためのコードと大規模実験を行った。
関連論文リスト
- Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions [18.47705532817026]
AdaGradは特定の条件下では$d$でSGDより優れていることを示す。
これを動機として、目的物の滑らかさ構造と勾配のばらつきを仮定する。
論文 参考訳(メタデータ) (2024-06-07T02:55:57Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Black Box Lie Group Preconditioners for SGD [13.30021794793606]
勾配降下の収束を加速するために,行列自由および低階近似プレコンディショナーを提案する。
パラメータ更新の学習速度とプレコンディショナリングのステップサイズは自然に正規化され、デフォルト値はほとんどの状況でうまく機能する。
論文 参考訳(メタデータ) (2022-11-08T18:07:08Z) - The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded
Gradients and Affine Variance [46.15915820243487]
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
AdaGrad-Normは$mathcalOleftのオーダー最適収束を示す。
論文 参考訳(メタデータ) (2022-02-11T17:37:54Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - An adaptive Hessian approximated stochastic gradient MCMC method [12.93317525451798]
後方からのサンプリング中に局所的幾何情報を組み込む適応型ヘッセン近似勾配MCMC法を提案する。
我々は,ネットワークの空間性を高めるために,等級に基づく重み付け法を採用する。
論文 参考訳(メタデータ) (2020-10-03T16:22:15Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Bayesian Sparse learning with preconditioned stochastic gradient MCMC
and its applications [5.660384137948734]
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束する。
提案アルゴリズムは, 温和な条件下で, 制御可能なバイアスで正しい分布に収束可能であることを示す。
論文 参考訳(メタデータ) (2020-06-29T20:57:20Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。