論文の概要: Improving Adaptive Moment Optimization via Preconditioner Diagonalization
- arxiv url: http://arxiv.org/abs/2502.07488v1
- Date: Tue, 11 Feb 2025 11:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:06:57.379676
- Title: Improving Adaptive Moment Optimization via Preconditioner Diagonalization
- Title(参考訳): プレコンディショナー対角化による適応モーメント最適化の改善
- Authors: Son Nguyen, Bo Liu, Lizhang Chen, Qiang Liu,
- Abstract要約: 提案手法は,現代適応法の収束速度を大幅に向上させることができることを示す。
LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
- 参考スコア(独自算出の注目度): 11.01832755213396
- License:
- Abstract: Modern adaptive optimization methods, such as Adam and its variants, have emerged as the most widely used tools in deep learning over recent years. These algorithms offer automatic mechanisms for dynamically adjusting the update step based on estimates of gradient statistics. Compared to traditional algorithms like Stochastic Gradient Descent, these adaptive methods are typically more robust to model scale and hyperparameter tuning. However, the gradient statistics employed by these methods often do not leverage sufficient gradient covariance information, leading to suboptimal updates in certain directions of the parameter space and potentially slower convergence. In this work, we keep track of such covariance statistics in the form of a structured preconditioner matrix. Unlike other works, our approach does not apply direct approximations to estimate this matrix. We instead implement an invertible transformation that maps the preconditioner matrix into a new space where it becomes approximately diagonal. This enables a diagonal approximation of the preconditioner matrix in the transformed space, offering several computational advantages. Empirical results show that our approach can substantially enhance the convergence speed of modern adaptive optimizers. Notably, for large language models like LLaMA, we can achieve a speedup of 2x compared to the baseline Adam. Additionally, our method can be integrated with memory-efficient optimizers like Adafactor to manage computational overhead.
- Abstract(参考訳): アダムとその変種のような現代の適応最適化手法は、近年、ディープラーニングにおいて最も広く使われているツールとして現れている。
これらのアルゴリズムは、勾配統計量の推定に基づいて更新ステップを動的に調整する自動メカニズムを提供する。
Stochastic Gradient Descentのような従来のアルゴリズムと比較して、これらの適応的手法はモデルスケールやハイパーパラメータチューニングに対してより堅牢である。
しかし、これらの手法で用いられる勾配統計は、十分な勾配共分散情報を利用していないことが多く、パラメータ空間の特定の方向における最適以下の更新と、潜在的に収束が遅くなる可能性がある。
本研究では、そのような共分散統計を構造化プレコンディショナ行列の形で追跡する。
他の研究とは異なり、我々の手法はこの行列を推定するために直接近似を適用しない。
代わりに、プレコンディショナー行列をほぼ対角線となる新しい空間に写像する可逆変換を実装する。
これにより、変換空間におけるプレコンディショナー行列の対角近似が可能になり、いくつかの計算上の利点を提供する。
実験により,現代の適応最適化器の収束速度を大幅に向上できることを示す。
特に、LLaMAのような大きな言語モデルでは、ベースラインであるAdamと比較して2倍のスピードアップが達成できます。
さらに、Adafactorのようなメモリ効率のよいオプティマイザと統合して計算オーバーヘッドを管理することもできる。
関連論文リスト
- AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix [8.975415409709575]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語コンピュータビジョン(CV)とレコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Local Quadratic Convergence of Stochastic Gradient Descent with Adaptive
Step Size [29.15132344744801]
本研究では,行列逆変換などの問題に対して,適応的なステップサイズを持つ勾配勾配の局所収束性を確立する。
これらの一階最適化法は線形あるいは線形収束を実現することができることを示す。
論文 参考訳(メタデータ) (2021-12-30T00:50:30Z) - Bolstering Stochastic Gradient Descent with Model Building [0.0]
勾配降下法とその変種は、優れた収束率を達成するためのコア最適化アルゴリズムを構成する。
本稿では,前方ステップモデル構築に基づく新しいアルゴリズムを用いて,線探索の代替手法を提案する。
提案アルゴリズムは、よく知られたテスト問題において、より高速な収束とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-11-13T06:54:36Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。