論文の概要: LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics
- arxiv url: http://arxiv.org/abs/2410.16103v2
- Date: Wed, 06 Nov 2024 11:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:21:08.437995
- Title: LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics
- Title(参考訳): LDAdam: 低次元勾配統計からの適応最適化
- Authors: Thomas Robert, Mher Safaryan, Ionut-Vlad Modoranu, Dan Alistarh,
- Abstract要約: 大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。
LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
- 参考スコア(独自算出の注目度): 37.21593513802284
- License:
- Abstract: We introduce LDAdam, a memory-efficient optimizer for training large models, that performs adaptive optimization steps within lower dimensional subspaces, while consistently exploring the full parameter space during training. This strategy keeps the optimizer's memory footprint to a fraction of the model size. LDAdam relies on a new projection-aware update rule for the optimizer states that allows for transitioning between subspaces, i.e., estimation of the statistics of the projected gradients. To mitigate the errors due to low-rank projection, LDAdam integrates a new generalized error feedback mechanism, which explicitly accounts for both gradient and optimizer state compression. We prove the convergence of LDAdam under standard assumptions, and show that LDAdam allows for accurate and efficient fine-tuning and pre-training of language models.
- Abstract(参考訳): 我々は,LDAdamという,大規模モデルの学習のためのメモリ効率のよい最適化手法を導入し,低次元部分空間内で適応最適化を行うとともに,トレーニング中の全パラメータ空間を常に探索する。
この戦略は、オプティマイザのメモリフットプリントをモデルサイズの一部に抑える。
LDAdamは、サブスペース間の遷移を可能にするオプティマイザ状態に対する新しいプロジェクション対応更新ルール、すなわち、投影された勾配の統計量の推定に頼っている。
低ランクプロジェクションによるエラーを軽減するため、LDAdamは新しい一般化されたエラーフィードバック機構を統合し、グラデーションとオプティマイザ状態の圧縮の両方を明示的に考慮している。
我々は,LDAdamの標準仮定による収束を証明し,LDAdamが言語モデルの高精度かつ効率的な微調整および事前学習を可能にしていることを示す。
関連論文リスト
- SubZero: Random Subspace Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach [11.878350833222711]
ガウス分布からの勾配更新をサンプリングするために, em GradSamp という手法を提案する。
Em GradSampは、勾配の合理化だけでなく、エポック全体のスキップを可能にし、全体的な効率を向上させる。
我々は、標準CNNとトランスフォーマーベースモデルの多種多様なセットにまたがって、我々の仮説を厳格に検証する。
論文 参考訳(メタデータ) (2024-06-11T15:01:20Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - A Control Theoretic Framework for Adaptive Gradient Optimizers in
Machine Learning [0.6526824510982802]
適応勾配法はディープニューラルネットワークの最適化に人気がある。
最近の例にはAdaGradとAdamがある。
我々は適応的勾配法のための汎用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2022-06-04T17:55:33Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。