Fugu-MT 論文翻訳(概要): Micro Batch Streaming: Allowing the Training of DNN models Using a large batch size on Small Memory Systems

論文の概要: Micro Batch Streaming: Allowing the Training of DNN models Using a large batch size on Small Memory Systems

arxiv url: http://arxiv.org/abs/2110.12484v1
Date: Sun, 24 Oct 2021 16:38:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-27 10:56:45.423697
Title: Micro Batch Streaming: Allowing the Training of DNN models Using a large batch size on Small Memory Systems
Title（参考訳）: マイクロバッチストリーミング:小型メモリシステム上での大きなバッチサイズを用いたDNNモデルのトレーニングを可能にする
Authors: DoangJoo Synn, XinYu Piao, JooYoung Park and Jong-Kook Kim
Abstract要約: ディープラーニングモデルは、モデルと大きなデータサイズの両方に対応する十分なメモリを持っていないため、大規模なバッチサイズを使用してトレーニングするのは難しい。バッチサイズが小さくなると、通常パフォーマンスが低下する。本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案し,この問題に対処する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The size of the deep learning models has greatly increased over the past decade. Such models are difficult to train using a large batch size, because commodity machines do not have enough memory to accommodate both the model and a large data size. The batch size is one of the hyper-parameters used in the training model, and it is dependent on and is limited by the target machine memory capacity and it is dependent on the remaining memory after the model is uploaded. A smaller batch size usually results in performance degradation. This paper proposes a framework called Micro-Batch Streaming (MBS) to address this problem. This method helps deep learning models to train by providing a batch streaming algorithm that splits a batch into the appropriate size for the remaining memory size and streams them sequentially to the target machine. A loss normalization algorithm based on the gradient accumulation is used to maintain the performance. The purpose of our method is to allow deep learning models to train using mathematically determined optimal batch sizes that cannot fit into the memory of a target system.
Abstract（参考訳）: ディープラーニングモデルのサイズは、過去10年間で大幅に増加している。このようなモデルは、モデルと大きなデータサイズの両方に対応できる十分なメモリを持っていないため、大きなバッチサイズでトレーニングすることは困難である。バッチサイズはトレーニングモデルで使用されるハイパーパラメータの1つであり、ターゲットマシンのメモリ容量に依存し、制限されており、モデルがアップロードされた後、残りのメモリに依存する。バッチサイズが小さいと、通常パフォーマンスが低下する。本稿では,マイクロバッチストリーミング(MBS)と呼ばれるフレームワークを提案する。この方法は、バッチを残りのメモリサイズに適したサイズに分割し、ターゲットマシンに順次ストリームするバッチストリーミングアルゴリズムを提供することで、ディープラーニングモデルのトレーニングを支援する。勾配の蓄積に基づく損失正規化アルゴリズムを用いて性能を維持する。本手法の目的は,対象システムのメモリに収まらない,数学的に決定された最適なバッチサイズを用いて,ディープラーニングモデルを訓練できるようにすることである。

関連論文リスト

Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful [71.96579951744897]
従来の知恵では、小さなバッチサイズは言語モデルを事前訓練し、微調整を不安定にし、モチベーションを増進させる。本研究では,バッチサイズからバッチサイズまで,小さなバッチサイズを再検討し,Adamハイパーパラメータを小さなバッチサイズにスケールするためのルールを提案する。
論文参考訳（メタデータ） (2025-07-09T17:57:36Z)
Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文参考訳（メタデータ） (2024-12-12T23:56:57Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
CompAct: Compressed Activations for Memory-Efficient LLM Training [7.837209773889032]
CompActはGPU上でのピークメモリ利用を事前トレーニングで25～30%削減し、LLMの微調整で50%削減する技術である。低ランクで圧縮されたアクティベーションを後方パスに格納することで、必要なメモリを大幅に削減する。 CompActの貯蓄は、より大きなモデルに対してさらに高いスケールを期待しています。
論文参考訳（メタデータ） (2024-10-20T10:24:38Z)
Vocabulary-level Memory Efficiency for Language Model Fine-tuning [36.1039389951318]
微調整中,語彙のかなりの割合が未使用であることが判明した。本稿では,メモリ使用量を最小限に抑えるため,この発見を利用したシンプルで効果的な手法を提案する。我々の手法は、より効率的な計算資源の利用を可能にしながら、下流のタスク性能に影響を与えない。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Memory Replay with Data Compression for Continual Learning [80.95444077825852]
古いトレーニングサンプルの記憶コストを低減するため,データ圧縮によるメモリリプレイを提案する。我々はこれを、クラスインクリメンタル学習のいくつかのベンチマークと、自律運転のためのオブジェクト検出の現実的なシナリオにおいて、広範囲に検証する。
論文参考訳（メタデータ） (2022-02-14T10:26:23Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文参考訳（メタデータ） (2021-02-24T19:55:49Z)
Diagonal Memory Optimisation for Machine Learning on Micro-controllers [21.222568055417717]
マイクロコントローラと低消費電力CPUは、機械学習モデルによる推論の実行にますます利用されている。これらのターゲットで利用可能な少量のRAMは、実行可能なモデルのサイズを制限する。対角メモリ最適化技術は、11の一般的なモデルに適用した場合、最大34.5%のメモリ節約を実現するために説明され、示されている。
論文参考訳（メタデータ） (2020-10-04T19:45:55Z)
Automatic Cross-Replica Sharding of Weight Update in Data-Parallel Training [12.36664837965624]
本稿では,レプリカ間で自動的に重み更新を行う手法を提案する。本手法は,クラウドTPU上での典型的な画像モデルと言語モデルにおいて,大幅な高速化を実現する。
論文参考訳（メタデータ） (2020-04-28T07:13:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。