論文の概要: Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance
- arxiv url: http://arxiv.org/abs/2110.12484v3
- Date: Tue, 2 Jul 2024 13:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 10:45:46.850513
- Title: Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance
- Title(参考訳): 性能維持中にメモリ限界を超えてDNNモデルの大規模バッチサイズトレーニングを実現する
- Authors: XinYu Piao, DoangJoo Synn, JooYoung Park, Jong-Kook Kim,
- Abstract要約: 最近のディープラーニングモデルは、大規模なバッチサイズを使用してトレーニングするのは難しい。
マシンはモデルと大きなデータバッチサイズの両方に対応するのに十分なメモリを持っていないかもしれない。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 0.22499166814992438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent deep learning models are difficult to train using a large batch size, because commodity machines may not have enough memory to accommodate both the model and a large data batch size. The batch size is one of the hyper-parameters used in the training model, and it is dependent on and is limited by the target machine memory capacity because the batch size can only fit into the remaining memory after the model is uploaded. Moreover, the data item size is also an important factor because if each data item size is larger then the batch size that can fit into the remaining memory becomes smaller. This paper proposes a method called Micro-Batch Processing (MBP) to address this problem. This method helps deep learning models to train by providing a batch processing method that splits a batch into a size that can fit in the remaining memory and processes them sequentially. After processing the small batches individually, a loss normalization algorithm based on the gradient accumulation is used to maintain the performance. The purpose of our method is to allow deep learning models to train using larger batch sizes that exceed the memory capacity of a system without increasing the memory size or using multiple devices (GPUs).
- Abstract(参考訳): 最近のディープラーニングモデルは、モデルと大規模なデータバッチサイズの両方に対応するのに十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。
バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、モデルがアップロードされた後のみ、バッチサイズが残りのメモリに収まるため、ターゲットマシンのメモリ容量に依存し、制限される。
さらに、各データ項目のサイズが大きくなると、残りのメモリに収まるバッチサイズが小さくなるため、データ項目のサイズも重要な要素である。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
この方法は、バッチを残りのメモリに適合し、順次処理可能なサイズに分割するバッチ処理方法を提供することで、ディープラーニングモデルのトレーニングを支援する。
小バッチを個別に処理した後、勾配蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。
本手法の目的は,メモリ容量を増大させることなく,あるいは複数のデバイス(GPU)を使用することなく,より大規模なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Tempo: Accelerating Transformer-Based Model Training through Memory
Footprint Reduction [3.5831119917067737]
本研究では,Transformerベースのモデルのトレーニングにアクセラレーションメモリリソースを効率的に利用するための新しいアプローチであるTempoを提案する。
このアプローチは、GELU、LayerNorm、Attentionレイヤのドロップイン置換を提供し、メモリ使用量を削減します。
我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
論文 参考訳(メタデータ) (2022-10-19T01:59:37Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。