Fugu-MT 論文翻訳(概要): MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence

論文の概要: MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence

arxiv url: http://arxiv.org/abs/2405.15593v1
Date: Fri, 24 May 2024 14:25:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 13:40:24.451969
Title: MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence
Title（参考訳）: MicroAdam: 低スペースオーバーヘッドと予測収束による正確な適応最適化
Authors: Ionut-Vlad Modoranu, Mher Safaryan, Grigory Malinovsky, Eldar Kurtic, Thomas Robert, Peter Richtarik, Dan Alistarh,
Abstract要約: 本稿では,メモリオーバーヘッドを最小限に抑えつつ,理論収束保証を維持しつつ,Adamグラデーションの新たな変種を提案する。分散最適化から古典的誤りフィードバック機構の新たなインスタンスを用いて,結果の圧縮誤差を制御する。提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
参考スコア（独自算出の注目度）: 35.17459630834073
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new variant of the Adam optimizer [Kingma and Ba, 2014] called MICROADAM that specifically minimizes memory overheads, while maintaining theoretical convergence guarantees. We achieve this by compressing the gradient information before it is fed into the optimizer state, thereby reducing its memory footprint significantly. We control the resulting compression error via a novel instance of the classical error feedback mechanism from distributed optimization [Seide et al., 2014, Alistarh et al., 2018, Karimireddy et al., 2019] in which the error correction information is itself compressed to allow for practical memory gains. We prove that the resulting approach maintains theoretical convergence guarantees competitive to those of AMSGrad, while providing good practical performance. Specifically, we show that MICROADAM can be implemented efficiently on GPUs: on both million-scale (BERT) and billion-scale (LLaMA) models, MicroAdam provides practical convergence competitive to that of the uncompressed Adam baseline, with lower memory usage and similar running time. Our code is available at https://github.com/IST-DASLab/MicroAdam.
Abstract（参考訳）: 我々は,Adam Optimizationr (Kingma and Ba, 2014) の新たな変種である MICROADAM を提案する。これにより、最適化状態に投入する前に勾配情報を圧縮し、メモリフットプリントを大幅に削減する。分散最適化(Seide et al , 2014 Alistarh et al , 2018, Karimireddy et al , 2019)から古典的エラーフィードバック機構の新たなインスタンスを用いて,結果の圧縮エラーを制御する。提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。具体的には,100万スケール(BERT)モデルと10億スケール(LLaMA)モデルの両方において,MICROADAMをGPU上で効率的に実装可能であることを示す。私たちのコードはhttps://github.com/IST-DASLab/MicroAdam.comから入手可能です。

関連論文リスト

Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
MLorc: Momentum Low-rank Compression for Large Language Model Adaptation [18.63642841688227]
我々は、モメンタム低ランク圧縮(MLorc)と呼ばれるメモリ効率の訓練パラダイムを提案する。勾配ではなく運動量を直接圧縮して再構成することにより、MLorcは重み更新行列に固定ランク制約を課すことを避ける。実証的には、MLorcは、他のメモリ効率のトレーニング方法、マッチ、さらにはフル微調整のパフォーマンスを一貫して上回っている。
論文参考訳（メタデータ） (2025-06-02T17:21:10Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
COSMOS: A Hybrid Adaptive Optimizer for Memory-Efficient Training of LLMs [81.01082659623552]
大規模言語モデル(LLM)は、様々な領域で顕著な成功を収めている。それらの最適化は、彼らが居住している複雑で高次元のロスランドスケープのために重要な課題である。
論文参考訳（メタデータ） (2025-02-24T18:42:19Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
Cautious Optimizers: Improving Training with One Line of Code [8.393403749426097]
我々はAdamWをCautious、例えばC-AdamWに改名した。我々の理論的な洞察によって、全く新しい結果の族が明らかになる。
論文参考訳（メタデータ） (2024-11-25T04:36:01Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
LDAdam: Adaptive Optimization from Low-Dimensional Gradient Statistics [37.21593513802284]
大規模なモデルをトレーニングするためのメモリ効率のよい勾配であるLDAdamを紹介する。 LDAdamは,言語モデルの精密かつ効率的な微調整と事前学習を可能にする。
論文参考訳（メタデータ） (2024-10-21T15:31:06Z)
LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-07-05T13:01:36Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training [6.0904817096340125]
本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。 AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
論文参考訳（メタデータ） (2023-05-31T16:06:50Z)
Maximizing Communication Efficiency for Large-scale Training via 0/1 Adam [49.426602335460295]
1ビット通信はモデルトレーニングのスケールアップに有効な手法であり、SGDで広く研究されている。我々は2つの新しい手法により最先端の1ビットAdamを改善する0/1Adamを提案する。
論文参考訳（メタデータ） (2022-02-12T08:02:23Z)
1-bit Adam: Communication Efficient Large-Scale Training with Adam's Convergence Speed [39.23129626683372]
通信は、ネットワーク帯域幅が限られている標準のTCPインターコネクトを持つコモディティシステムにおいて、大きなボトルネックとなっている。最も効果的な方法の1つは、誤り補償圧縮であり、1ビット圧縮でも堅牢な収束速度を提供する。我々は,通信容量を最大5倍に削減し,スケーラビリティを向上し,非圧縮Adamと同じ収束速度を提供する1ビットAdamを提案する。
論文参考訳（メタデータ） (2021-02-04T21:02:19Z)
APMSqueeze: A Communication Efficient Adam-Preconditioned Momentum SGD Algorithm [39.110478306078974]
AdamはBERTやImageNetといった多くの重要なタスクをトレーニングするための効率性と正確性を保証する重要な最適化アルゴリズムである。本稿では,bf ADAM bfプレコンディション付きbf Momentum SGDアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-26T02:20:23Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。