Fugu-MT 論文翻訳(概要): Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training

論文の概要: Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training

arxiv url: http://arxiv.org/abs/2305.19982v1
Date: Wed, 31 May 2023 16:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 15:34:21.060006
Title: Adam Accumulation to Reduce Memory Footprints of both Activations and Gradients for Large-scale DNN Training
Title（参考訳）: 大規模dnnトレーニングにおけるadamの蓄積によるアクティベーションと勾配のメモリフットプリント削減
Authors: Yijia Zhang, Yibo Han, Shijie Cao, Guohao Dai, Youshan Miao, Ting Cao, Fan Yang, Ningyi Xu
Abstract要約: 本稿では,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しいAdamの蓄積手法を提案する。具体的には、AdamAは状態への勾配を直接統合し、マイクロバッチ上で状態を蓄積することで、使用直後に勾配を解放することができる。 AdamAは、トレーニングスループットが2%未満のグラデーション累積に比べて最大23%のメモリ削減を実現している。
参考スコア（独自算出の注目度）: 6.0904817096340125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Running out of GPU memory has become a main bottleneck for large-scale DNN training. How to reduce the memory footprint during training has received intensive research attention. We find that previous gradient accumulation reduces activation memory but fails to be compatible with gradient memory reduction due to a contradiction between preserving gradients and releasing gradients. To address this issue, we propose a novel optimizer accumulation method for Adam, named Adam Accumulation (AdamA), which enables reducing both activation and gradient memory. Specifically, AdamA directly integrates gradients into optimizer states and accumulates optimizer states over micro-batches, so that gradients can be released immediately after use. We mathematically and experimentally demonstrate AdamA yields the same convergence properties as Adam. Evaluated on transformer-based models, AdamA achieves up to 23% memory reduction compared to gradient accumulation with less than 2% degradation in training throughput. Notably, AdamA can work together with memory reduction methods for optimizer states to fit 1.26x~3.14x larger models over PyTorch and DeepSpeed baseline on GPUs with different memory capacities.
Abstract（参考訳）: GPUメモリの実行は、大規模なDNNトレーニングの主要なボトルネックとなっている。トレーニング中のメモリフットプリントの削減方法は、集中的な研究の注目を集めている。過去の勾配蓄積は、活性化メモリを減少させるが、保存勾配と解放勾配の矛盾により、勾配メモリの減少と相容れない。この問題に対処するために,Adam Accumulation (AdamA) という,アクティベーションとグラデーションメモリの両方を削減可能な新しい最適化器の蓄積手法を提案する。具体的には、AdamAはグラデーションを直接オプティマイザステートに統合し、マイクロバッチ上でオプティマイザステートを蓄積する。我々はAdamAがAdamと同じ収束特性をもたらすことを数学的および実験的に示す。トランスフォーマーベースのモデルで評価されたAdamAは、トレーニングスループットの2%未満の劣化を伴う勾配蓄積と比較して最大23%のメモリ削減を実現している。特に、AdamAはメモリ削減手法と連携して、メモリ容量の異なるGPU上でPyTorchとDeepSpeedのベースラインを1.26x~3.14xのモデルに適合させる。

関連論文リスト

When Can You Get Away with Low Memory Adam? [48.30892531847662]
我々は、$textitSlimAdam$がAdamのパフォーマンスと安定性にマッチし、合計2回目で98%のコストを節約できることを示します。 code for $textitSlimAdam$はhttps://github.com/dayal-kalra/low-Memory-adamで入手できる。
論文参考訳（メタデータ） (2025-03-03T18:59:40Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection [17.54863041098623]
トレーニング性能を維持しながら計算オーバーヘッドを最小限に抑えるメモリ効率の高いCOAPを提案する。 LLaMA-1Bでは、メモリをわずか2%追加で61%削減し、AdamWと同じPPLを実現する。 8ビット量子化により、COAPはメモリを81%削減し、LLaVA-v1.5-7BファインチューニングのためにGaLoreを4倍高速化する。
論文参考訳（メタデータ） (2024-11-26T03:50:52Z)
Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。 CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文参考訳（メタデータ） (2024-11-13T20:30:15Z)
Grass: Compute Efficient Low-Memory LLM Training with Structured Sparse Gradients [24.58231358634904]
大規模言語モデル(LLM)のトレーニングと微調整は、しばしば限られたGPUメモリによってボトルネックとなる。グラス(GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification,GRAdient Stuctured Sparsification)は、スパースプロジェクションを利用して勾配を構造化されたスパース更新に変換する新しい手法である。
論文参考訳（メタデータ） (2024-06-25T15:50:32Z)
MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence [35.17459630834073]
我々は,理論収束保証を維持しつつ,メモリオーバーヘッドを特に最小化するAdamの新たな変種を提案する。分散最適化から古典的エラーフィードバック機構の新たなインスタンスを用いて圧縮誤差を制御した。提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
論文参考訳（メタデータ） (2024-05-24T14:25:23Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Large Scale Private Learning via Low-rank Reparametrization [77.38947817228656]
本稿では、大規模ニューラルネットワークに微分プライベートSGDを適用する際の課題を解決するために、再パラメータ化方式を提案する。 BERTモデルにディファレンシャルプライバシを適用し、4つの下流タスクで平均精度が8,3.9%に達するのはこれが初めてである。
論文参考訳（メタデータ） (2021-06-17T10:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。