論文の概要: APOLLO: SGD-like Memory, AdamW-level Performance
- arxiv url: http://arxiv.org/abs/2412.05270v3
- Date: Mon, 20 Jan 2025 10:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:23.938830
- Title: APOLLO: SGD-like Memory, AdamW-level Performance
- Title(参考訳): APOLLO: SGDライクなメモリ、AdamWレベルのパフォーマンス
- Authors: Hanqing Zhu, Zhenyu Zhang, Wenyan Cong, Xi Liu, Sem Park, Vikas Chandra, Bo Long, David Z. Pan, Zhangyang Wang, Jinwon Lee,
- Abstract要約: 大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。
メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。
i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
- 参考スコア(独自算出の注目度): 61.53444035835778
- License:
- Abstract: Large language models (LLMs) are notoriously memory-intensive during training, particularly with the popular AdamW optimizer. This memory burden necessitates using more or higher-end GPUs or reducing batch sizes, limiting training scalability and throughput. To address this, various memory-efficient optimizers have been proposed to reduce optimizer memory usage. However, they face critical challenges: (i) reliance on costly SVD operations; (ii) significant performance trade-offs compared to AdamW; and (iii) still substantial optimizer memory overhead to maintain competitive performance. In this work, we identify that AdamW's learning rate adaptation rule can be effectively coarsened as a structured learning rate update. Based on this insight, we propose Approximated Gradient Scaling for Memory-Efficient LLM Optimization (APOLLO), which approximates learning rate scaling using an auxiliary low-rank optimizer state based on pure random projection. This structured learning rate update rule makes APOLLO highly tolerant to further memory reductions while delivering comparable pre-training performance. Even its rank-1 variant, APOLLO-Mini, achieves superior pre-training performance compared to AdamW with SGD-level memory costs. Extensive experiments demonstrate that the APOLLO series performs on-par with or better than AdamW, while achieving greater memory savings by nearly eliminating the optimization states of AdamW. These savings provide significant system-level benefits: (1) Enhanced Throughput: 3x throughput on an 8xA100-80GB setup compared to AdamW by supporting 4x larger batch sizes. (2) Improved Model Scalability: Pre-training LLaMA-13B with naive DDP on A100-80GB GPUs without system-level optimizations. (3) Low-End GPU Friendly Pre-training: Pre-training LLaMA-7B on a single GPU using less than 12 GB of memory with weight quantization.
- Abstract(参考訳): 大規模言語モデル(LLM)はトレーニング中、特に人気のあるAdamWオプティマイザで、メモリ集約的に知られている。
このメモリ負荷は、より多くのハイエンドGPUを使用するか、バッチサイズを削減し、トレーニングのスケーラビリティとスループットを制限する必要がある。
これを解決するために、メモリ効率のよいオプティマイザが提案されている。
しかし、それらは重大な課題に直面します。
一 コストのかかるSVD事業に依存すること。
(二)AdamWと比較して重要な業績トレードオフ
(iii) 競争性能を維持するため、メモリオーバーヘッドを大幅に最適化する。
本研究では,AdamWの学習率適応ルールを構造化学習率更新として効果的に粗化できることを示す。
この知見に基づいて、純粋ランダムプロジェクションに基づく補助的低ランクオプティマイザ状態を用いて学習速度のスケーリングを近似するAPOLLO(Approximated Gradient Scaling for Memory-Efficient LLM Optimization)を提案する。
この構造化学習率更新規則により、APOLLOは、同等の事前学習性能を提供しながら、さらなるメモリ削減に高い耐性を持つ。
ランク1のAPOLLO-Miniでさえ、SGDレベルのメモリコストでAdamWよりも優れた事前トレーニング性能を実現している。
大規模な実験により、APOLLOシリーズはAdamWよりも高い性能を示しながら、AdamWの最適化状態をほぼ排除することでメモリ節約を実現している。
1) スループットの向上: 8xA100-80GBのセットアップで3倍のスループットを実現する。
2) モデル拡張性の向上: システムレベルの最適化が不要なA100-80GBGPU上で, 単純DDPでLLaMA-13Bを事前学習する。
(3)ローエンドGPUフレンドリーな事前トレーニング:12GB未満のメモリで1つのGPU上でLLaMA-7Bを事前トレーニングする。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。
グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文 参考訳(メタデータ) (2024-06-25T15:50:32Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM
Fine-Tuning [67.44661423463927]
本稿では,ZOをパラメータの慎重に選択したサブセットにのみ適用するメモリ効率のゼロ階最適化手法であるSparse MeZOを紹介する。
その結果,Sparse-MeZO はオーバーヘッドを伴わずに,MeZO 上での性能と収束速度を安定的に向上することを示した。
論文 参考訳(メタデータ) (2024-02-24T07:22:04Z) - ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training [6.0904817096340125]
本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。
具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。
AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
論文 参考訳(メタデータ) (2023-05-31T16:06:50Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。