論文の概要: Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training
- arxiv url: http://arxiv.org/abs/2305.19982v1
- Date: Wed, 31 May 2023 16:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 15:34:21.060006
- Title: Adam Accumulation to Reduce Memory Footprints of both Activations and
Gradients for Large-scale DNN Training
- Title(参考訳): 大規模dnnトレーニングにおけるadamの蓄積によるアクティベーションと勾配のメモリフットプリント削減
- Authors: Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao, Ting Cao,
Fan Yang, Ningyi Xu
- Abstract要約: 本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。
具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。
AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 6.0904817096340125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Running out of GPU memory has become a main bottleneck for large-scale DNN
training. How to reduce the memory footprint during training has received
intensive research attention. We find that previous gradient accumulation
reduces activation memory but fails to be compatible with gradient memory
reduction due to a contradiction between preserving gradients and releasing
gradients. To address this issue, we propose a novel optimizer accumulation
method for Adam, named Adam Accumulation (AdamA), which enables reducing both
activation and gradient memory. Specifically, AdamA directly integrates
gradients into optimizer states and accumulates optimizer states over
micro-batches, so that gradients can be released immediately after use. We
mathematically and experimentally demonstrate AdamA yields the same convergence
properties as Adam. Evaluated on transformer-based models, AdamA achieves up to
23% memory reduction compared to gradient accumulation with less than 2%
degradation in training throughput. Notably, AdamA can work together with
memory reduction methods for optimizer states to fit 1.26x~3.14x larger models
over PyTorch and DeepSpeed baseline on GPUs with different memory capacities.
- Abstract(参考訳): GPUメモリの実行は、大規模なDNNトレーニングの主要なボトルネックとなっている。
トレーニング中のメモリフットプリントの削減方法は、集中的な研究の注目を集めている。
過去の勾配蓄積は、活性化メモリを減少させるが、保存勾配と解放勾配の矛盾により、勾配メモリの減少と相容れない。
この問題に対処するために,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しい最適化器の蓄積手法を提案する。
具体的には、AdamAはグラデーションを直接オプティマイザステートに統合し、マイクロバッチ上でオプティマイザステートを蓄積する。
我々はAdamAがAdamと同じ収束特性をもたらすことを数学的および実験的に示す。
トランスフォーマーベースのモデルで評価されたAdamAは、トレーニングスループットの2%未満の劣化を伴う勾配蓄積と比較して最大23%のメモリ削減を実現している。
特に、AdamAはメモリ削減手法と連携して、メモリ容量の異なるGPU上でPyTorchとDeepSpeedのベースラインを1.26x~3.14xのモデルに適合させる。
関連論文リスト
- AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Memory Augmented Optimizers for Deep Learning [10.541705775336657]
本稿では,メモリ内の勾配履歴を限定的に把握する,メモリ拡張勾配降下の枠組みを提案する。
固定サイズのメモリを持つ勾配勾配勾配のクラスは、強い凸性の仮定の下で収束することを示す。
論文 参考訳(メタデータ) (2021-06-20T14:58:08Z) - Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。
BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文 参考訳(メタデータ) (2021-06-17T10:14:43Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。