論文の概要: MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence
- arxiv url: http://arxiv.org/abs/2405.15593v1
- Date: Fri, 24 May 2024 14:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:40:24.451969
- Title: MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence
- Title(参考訳): MicroAdam: 低スペースオーバーヘッドと予測収束による正確な適応最適化
- Authors: Ionut-Vlad Modoranu, Mher Safaryan, Grigory Malinovsky, Eldar Kurtic, Thomas Robert, Peter Richtarik, Dan Alistarh,
- Abstract要約: 本稿では,メモリオーバーヘッドを最小限に抑えつつ,理論収束保証を維持しつつ,Adamグラデーションの新たな変種を提案する。
分散最適化から古典的誤りフィードバック機構の新たなインスタンスを用いて,結果の圧縮誤差を制御する。
提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
- 参考スコア(独自算出の注目度): 35.17459630834073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new variant of the Adam optimizer [Kingma and Ba, 2014] called MICROADAM that specifically minimizes memory overheads, while maintaining theoretical convergence guarantees. We achieve this by compressing the gradient information before it is fed into the optimizer state, thereby reducing its memory footprint significantly. We control the resulting compression error via a novel instance of the classical error feedback mechanism from distributed optimization [Seide et al., 2014, Alistarh et al., 2018, Karimireddy et al., 2019] in which the error correction information is itself compressed to allow for practical memory gains. We prove that the resulting approach maintains theoretical convergence guarantees competitive to those of AMSGrad, while providing good practical performance. Specifically, we show that MICROADAM can be implemented efficiently on GPUs: on both million-scale (BERT) and billion-scale (LLaMA) models, MicroAdam provides practical convergence competitive to that of the uncompressed Adam baseline, with lower memory usage and similar running time. Our code is available at https://github.com/IST-DASLab/MicroAdam.
- Abstract(参考訳): 我々は,Adam Optimizationr (Kingma and Ba, 2014) の新たな変種である MICROADAM を提案する。
これにより、最適化状態に投入する前に勾配情報を圧縮し、メモリフットプリントを大幅に削減する。
分散最適化(Seide et al , 2014 Alistarh et al , 2018, Karimireddy et al , 2019)から古典的エラーフィードバック機構の新たなインスタンスを用いて,結果の圧縮エラーを制御する。
提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
具体的には,100万スケール(BERT)モデルと10億スケール(LLaMA)モデルの両方において,MICROADAMをGPU上で効率的に実装可能であることを示す。
私たちのコードはhttps://github.com/IST-DASLab/MicroAdam.comから入手可能です。
関連論文リスト
- LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed
Zeroth-Order Optimizer [46.484698809881486]
古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。
最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。
本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:11:55Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Error Feedback Can Accurately Compress Preconditioners [43.60787513716217]
ディープ・ネットワークの規模での損失に関する2次情報を活用することは、ディープ・ラーニングのための電流の性能を改善するための主要なアプローチの1つである。
しかし、GGT (Full-Matrix Adagrad) やM-FAC (Matrix-Free Approximate Curvature) のような、正確な完全行列プリコンディショニングのための既存のアプローチは、小規模モデルにも適用した場合に膨大なストレージコストを被る。
本稿では, コンバージェンスを損なうことなく, プリコンディショナーを最大2桁圧縮できる新しい, 効率的なエラーフィードバック手法により, この問題に対処する。
論文 参考訳(メタデータ) (2023-06-09T17:58:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Efficient Algorithms for Federated Saddle Point Optimization [32.060759921090856]
我々は,通信制約が主なボトルネックとなるフェデレーション設定において,凸凹型ミニマックス問題を考える。
我々のゴールは、任意の異種性の下でMinibatch Mirror-prox性能を回復しながら、クライアントの類似性の利点を活用できるアルゴリズムを設計することである。
論文 参考訳(メタデータ) (2021-02-12T02:55:36Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z) - Memory and Computation-Efficient Kernel SVM via Binary Embedding and
Ternary Model Coefficients [18.52747917850984]
カーネル近似はカーネルSVMのトレーニングと予測のスケールアップに広く用いられている。
メモリ制限されたデバイスにデプロイしたい場合、カーネル近似モデルのメモリと計算コストはまだ高すぎる。
本稿では,バイナリ埋め込みとバイナリモデル係数を用いて,新しいメモリと計算効率の高いカーネルSVMモデルを提案する。
論文 参考訳(メタデータ) (2020-10-06T09:41:54Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。