論文の概要: Micro Batch Streaming: Allowing the Training of DNN models Using a large
batch size on Small Memory Systems
- arxiv url: http://arxiv.org/abs/2110.12484v1
- Date: Sun, 24 Oct 2021 16:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 10:56:45.423697
- Title: Micro Batch Streaming: Allowing the Training of DNN models Using a large
batch size on Small Memory Systems
- Title(参考訳): マイクロバッチストリーミング:小型メモリシステム上での大きなバッチサイズを用いたDNNモデルのトレーニングを可能にする
- Authors: DoangJoo Synn, XinYu Piao, JooYoung Park and Jong-Kook Kim
- Abstract要約: ディープラーニングモデルは、モデルと大きなデータサイズの両方に対応する十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。
バッチサイズが小さくなると、通常パフォーマンスが低下する。
本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案し,この問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The size of the deep learning models has greatly increased over the past
decade. Such models are difficult to train using a large batch size, because
commodity machines do not have enough memory to accommodate both the model and
a large data size. The batch size is one of the hyper-parameters used in the
training model, and it is dependent on and is limited by the target machine
memory capacity and it is dependent on the remaining memory after the model is
uploaded. A smaller batch size usually results in performance degradation. This
paper proposes a framework called Micro-Batch Streaming (MBS) to address this
problem. This method helps deep learning models to train by providing a batch
streaming algorithm that splits a batch into the appropriate size for the
remaining memory size and streams them sequentially to the target machine. A
loss normalization algorithm based on the gradient accumulation is used to
maintain the performance. The purpose of our method is to allow deep learning
models to train using mathematically determined optimal batch sizes that cannot
fit into the memory of a target system.
- Abstract(参考訳): ディープラーニングモデルのサイズは、過去10年間で大幅に増加している。
このようなモデルは、モデルと大きなデータサイズの両方に対応できる十分なメモリを持っていないため、大きなバッチサイズでトレーニングすることは困難である。
バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、ターゲットマシンのメモリ容量に依存し、制限されており、モデルがアップロードされた後、残りのメモリに依存する。
バッチサイズが小さいと、通常パフォーマンスが低下する。
本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案する。
この方法は、バッチを残りのメモリサイズに適したサイズに分割し、ターゲットマシンに順次ストリームするバッチストリーミングアルゴリズムを提供することで、ディープラーニングモデルのトレーニングを支援する。
勾配の蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。
本手法の目的は,対象システムのメモリに収まらない,数学的に決定された最適なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。
関連論文リスト
- Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Prototype Memory for Large-scale Face Representation Learning [0.5524804393257919]
softmaxベースのアプローチは、数百万人のデータセットには適していない。
プロトタイプメモリと呼ばれる新しい顔表現学習モデルを提案する。
人気の顔認識ベンチマークに関する広範な実験により,提案モデルの有効性を実証した。
論文 参考訳(メタデータ) (2021-05-05T15:08:34Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。