論文の概要: Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training
- arxiv url: http://arxiv.org/abs/2305.19982v1
- Date: Wed, 31 May 2023 16:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:34:21.060006
- Title: Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training
- Title(参考訳): 大規模dnnトレーニングにおけるadamの蓄積によるアクティベーションと勾配のメモリフットプリント削減
- Authors: Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao, Ting Cao,
Fan Yang, Ningyi Xu
- Abstract要約: 本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。
具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。
AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 6.0904817096340125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running out of GPU memory has become a main bottleneck for large-scale DNN
training. How to reduce the memory footprint during training has received
intensive research attention. We find that previous gradient accumulation
reduces activation memory but fails to be compatible with gradient memory
reduction due to a contradiction between preserving gradients and releasing
gradients. To address this issue, we propose a novel optimizer accumulation
method for Adam, named Adam Accumulation (AdamA), which enables reducing both
activation and gradient memory. Specifically, AdamA directly integrates
gradients into optimizer states and accumulates optimizer states over
micro-batches, so that gradients can be released immediately after use. We
mathematically and experimentally demonstrate AdamA yields the same convergence
properties as Adam. Evaluated on transformer-based models, AdamA achieves up to
23% memory reduction compared to gradient accumulation with less than 2%
degradation in training throughput. Notably, AdamA can work together with
memory reduction methods for optimizer states to fit 1.26x~3.14x larger models
over PyTorch and DeepSpeed baseline on GPUs with different memory capacities.
- Abstract(参考訳): GPUメモリの実行は、大規模なDNNトレーニングの主要なボトルネックとなっている。
トレーニング中のメモリフットプリントの削減方法は、集中的な研究の注目を集めている。
過去の勾配蓄積は、活性化メモリを減少させるが、保存勾配と解放勾配の矛盾により、勾配メモリの減少と相容れない。
この問題に対処するために,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しい最適化器の蓄積手法を提案する。
具体的には、AdamAはグラデーションを直接オプティマイザステートに統合し、マイクロバッチ上でオプティマイザステートを蓄積する。
我々はAdamAがAdamと同じ収束特性をもたらすことを数学的および実験的に示す。
トランスフォーマーベースのモデルで評価されたAdamAは、トレーニングスループットの2%未満の劣化を伴う勾配蓄積と比較して最大23%のメモリ削減を実現している。
特に、AdamAはメモリ削減手法と連携して、メモリ容量の異なるGPU上でPyTorchとDeepSpeedのベースラインを1.26x~3.14xのモデルに適合させる。
関連論文リスト
- Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。
グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文 参考訳(メタデータ) (2024-06-25T15:50:32Z) - MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence [35.17459630834073]
我々は,理論収束保証を維持しつつ,メモリオーバーヘッドを特に最小化するAdamの新たな変種を提案する。
分散最適化から古典的エラーフィードバック機構の新たなインスタンスを用いて圧縮誤差を制御した。
提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
論文 参考訳(メタデータ) (2024-05-24T14:25:23Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。