論文の概要: Tempo: Accelerating Transformer-Based Model Training through Memory
Footprint Reduction
- arxiv url: http://arxiv.org/abs/2210.10246v1
- Date: Wed, 19 Oct 2022 01:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 15:30:28.043392
- Title: Tempo: Accelerating Transformer-Based Model Training through Memory
Footprint Reduction
- Title(参考訳): tempo:メモリフットプリント削減によるトランスフォーマーモデルトレーニングの高速化
- Authors: Muralidhar Andoorveedu, Zhanda Zhu, Bojian Zheng, Gennady Pekhimenko
- Abstract要約: 本研究では,Transformerベースのモデルのトレーニングにアクセラレーションメモリリソースを効率的に利用するための新しいアプローチであるTempoを提案する。
このアプローチは、GELU、LayerNorm、Attentionレイヤのドロップイン置換を提供し、メモリ使用量を削減します。
我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
- 参考スコア(独自算出の注目度): 3.5831119917067737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep learning models can be computationally expensive. Prior works
have shown that increasing the batch size can potentially lead to better
overall throughput. However, the batch size is frequently limited by the
accelerator memory capacity due to the activations/feature maps stored for the
training backward pass, as larger batch sizes require larger feature maps to be
stored. Transformer-based models, which have recently seen a surge in
popularity due to their good performance and applicability to a variety of
tasks, have a similar problem. To remedy this issue, we propose Tempo, a new
approach to efficiently use accelerator (e.g., GPU) memory resources for
training Transformer-based models. Our approach provides drop-in replacements
for the GELU, LayerNorm, and Attention layers, reducing the memory usage and
ultimately leading to more efficient training. We implement Tempo and evaluate
the throughput, memory usage, and accuracy/loss on the BERT Large pre-training
task. We demonstrate that Tempo enables up to 2x higher batch sizes and 16%
higher training throughput over the state-of-the-art baseline. We also evaluate
Tempo on GPT2 and RoBERTa models, showing 19% and 26% speedup over the
baseline.
- Abstract(参考訳): ディープラーニングモデルのトレーニングには計算コストがかかる。
以前の作業では、バッチサイズを増加させることで、全体のスループットが向上する可能性がある。
しかしながら、バッチサイズは、トレーニングの後方パスのために格納されたアクティベーション/フィーチャーマップのため、アクティベーションメモリ容量によって頻繁に制限される。
トランスフォーマーベースのモデルは、パフォーマンスの良さとさまざまなタスクへの適用性によって最近人気が高まっているが、同様の問題がある。
そこで本稿では,トランスフォーマーモデルの学習にアクセラレーション(gpu)メモリ資源を効率的に利用するための新しい手法であるtempoを提案する。
このアプローチは、GELU、LayerNorm、Atentionレイヤのドロップイン置換を提供し、メモリ使用量を削減し、最終的にはより効率的なトレーニングを可能にします。
本研究では,BERT Largeプレトレーニングタスクにおいて,Tempoを実装し,スループット,メモリ使用量,精度/損失を評価する。
我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
また,GPT2およびRoBERTaモデル上でTempoを評価し,ベースライン上で19%,26%の高速化を示した。
関連論文リスト
- TBA: Faster Large Language Model Training Using SSD-Based Activation Offloading [13.283682311968752]
TBAは、PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。
TBAはアクティベーションピークメモリ使用量の47%を効果的に削減できることを示す。
同時に、TBAは計算とI/Oを完全にオーバーラップし、無視できるパフォーマンスのオーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2024-08-19T14:09:48Z) - Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。
既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文 参考訳(メタデータ) (2024-03-25T08:41:01Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。