論文の概要: Micro Batch Streaming: Allowing the Training of DNN models Using a large
batch size on Small Memory Systems
- arxiv url: http://arxiv.org/abs/2110.12484v1
- Date: Sun, 24 Oct 2021 16:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 10:56:45.423697
- Title: Micro Batch Streaming: Allowing the Training of DNN models Using a large
batch size on Small Memory Systems
- Title(参考訳): マイクロバッチストリーミング:小型メモリシステム上での大きなバッチサイズを用いたDNNモデルのトレーニングを可能にする
- Authors: DoangJoo Synn, XinYu Piao, JooYoung Park and Jong-Kook Kim
- Abstract要約: ディープラーニングモデルは、モデルと大きなデータサイズの両方に対応する十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。
バッチサイズが小さくなると、通常パフォーマンスが低下する。
本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案し,この問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The size of the deep learning models has greatly increased over the past
decade. Such models are difficult to train using a large batch size, because
commodity machines do not have enough memory to accommodate both the model and
a large data size. The batch size is one of the hyper-parameters used in the
training model, and it is dependent on and is limited by the target machine
memory capacity and it is dependent on the remaining memory after the model is
uploaded. A smaller batch size usually results in performance degradation. This
paper proposes a framework called Micro-Batch Streaming (MBS) to address this
problem. This method helps deep learning models to train by providing a batch
streaming algorithm that splits a batch into the appropriate size for the
remaining memory size and streams them sequentially to the target machine. A
loss normalization algorithm based on the gradient accumulation is used to
maintain the performance. The purpose of our method is to allow deep learning
models to train using mathematically determined optimal batch sizes that cannot
fit into the memory of a target system.
- Abstract(参考訳): ディープラーニングモデルのサイズは、過去10年間で大幅に増加している。
このようなモデルは、モデルと大きなデータサイズの両方に対応できる十分なメモリを持っていないため、大きなバッチサイズでトレーニングすることは困難である。
バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、ターゲットマシンのメモリ容量に依存し、制限されており、モデルがアップロードされた後、残りのメモリに依存する。
バッチサイズが小さいと、通常パフォーマンスが低下する。
本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案する。
この方法は、バッチを残りのメモリサイズに適したサイズに分割し、ターゲットマシンに順次ストリームするバッチストリーミングアルゴリズムを提供することで、ディープラーニングモデルのトレーニングを支援する。
勾配の蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。
本手法の目的は,対象システムのメモリに収まらない,数学的に決定された最適なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。
関連論文リスト
- BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文 参考訳(メタデータ) (2024-10-31T13:26:11Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25~30%削減し、LLMの微調整で50%削減する技術である。
低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。
CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文 参考訳(メタデータ) (2024-10-20T10:24:38Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。
我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文 参考訳(メタデータ) (2022-02-14T10:26:23Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z) - Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。
これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。
対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文 参考訳(メタデータ) (2020-10-04T19:45:55Z) - Automatic Cross-Replica Sharding of Weight Update in Data-Parallel
Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。
本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文 参考訳(メタデータ) (2020-04-28T07:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。