Fugu-MT 論文翻訳(概要): Tempo: Accelerating Transformer-Based Model Training through Memory Footprint Reduction

論文の概要: Tempo: Accelerating Transformer-Based Model Training through Memory Footprint Reduction

arxiv url: http://arxiv.org/abs/2210.10246v1
Date: Wed, 19 Oct 2022 01:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 15:30:28.043392
Title: Tempo: Accelerating Transformer-Based Model Training through Memory Footprint Reduction
Title（参考訳）: tempo:メモリフットプリント削減によるトランスフォーマーモデルトレーニングの高速化
Authors: Muralidhar Andoorveedu, Zhanda Zhu, Bojian Zheng, Gennady Pekhimenko
Abstract要約: 本研究では,Transformerベースのモデルのトレーニングにアクセラレーションメモリリソースを効率的に利用するための新しいアプローチであるTempoを提案する。このアプローチは、GELU、LayerNorm、Attentionレイヤのドロップイン置換を提供し、メモリ使用量を削減します。我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
参考スコア（独自算出の注目度）: 3.5831119917067737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training deep learning models can be computationally expensive. Prior works have shown that increasing the batch size can potentially lead to better overall throughput. However, the batch size is frequently limited by the accelerator memory capacity due to the activations/feature maps stored for the training backward pass, as larger batch sizes require larger feature maps to be stored. Transformer-based models, which have recently seen a surge in popularity due to their good performance and applicability to a variety of tasks, have a similar problem. To remedy this issue, we propose Tempo, a new approach to efficiently use accelerator (e.g., GPU) memory resources for training Transformer-based models. Our approach provides drop-in replacements for the GELU, LayerNorm, and Attention layers, reducing the memory usage and ultimately leading to more efficient training. We implement Tempo and evaluate the throughput, memory usage, and accuracy/loss on the BERT Large pre-training task. We demonstrate that Tempo enables up to 2x higher batch sizes and 16% higher training throughput over the state-of-the-art baseline. We also evaluate Tempo on GPT2 and RoBERTa models, showing 19% and 26% speedup over the baseline.
Abstract（参考訳）: ディープラーニングモデルのトレーニングには計算コストがかかる。以前の作業では、バッチサイズを増加させることで、全体のスループットが向上する可能性がある。しかしながら、バッチサイズは、トレーニングの後方パスのために格納されたアクティベーション/フィーチャーマップのため、アクティベーションメモリ容量によって頻繁に制限される。トランスフォーマーベースのモデルは、パフォーマンスの良さとさまざまなタスクへの適用性によって最近人気が高まっているが、同様の問題がある。そこで本稿では,トランスフォーマーモデルの学習にアクセラレーション(gpu)メモリ資源を効率的に利用するための新しい手法であるtempoを提案する。このアプローチは、GELU、LayerNorm、Atentionレイヤのドロップイン置換を提供し、メモリ使用量を削減し、最終的にはより効率的なトレーニングを可能にします。本研究では,BERT Largeプレトレーニングタスクにおいて,Tempoを実装し,スループット,メモリ使用量,精度/損失を評価する。我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。また,GPT2およびRoBERTaモデル上でTempoを評価し,ベースライン上で19%,26%の高速化を示した。

関連論文リスト

Scalable Parameter and Memory Efficient Pretraining for LLM: Recent Algorithmic Advances and Benchmarking [26.80161478380058]
大規模言語モデル(LLM)は前例のない速度で成長し、最近のモデルには数兆のパラメータを含むものもある。この成長には、特にトレーニングや微調整に必要なメモリと計算資源に関して、かなりの計算上の課題が伴う。パラメーターまたはメモリ効率のよいメソッドは、事前トレーニングの効率を高めつつ、フルモデルトレーニングに匹敵するパフォーマンスを達成することができるだろうか?
論文参考訳（メタデータ） (2025-05-28T22:51:43Z)
TBA: Faster Large Language Model Training Using SSD-Based Activation Offloading [13.283682311968752]
TBAは、PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。 TBAはアクティベーションピークメモリ使用量の47%を効果的に削減できることを示す。同時に、TBAは計算とI/Oを完全にオーバーラップし、無視できるパフォーマンスのオーバーヘッドを発生させる。
論文参考訳（メタデータ） (2024-08-19T14:09:48Z)
Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文参考訳（メタデータ） (2024-03-25T08:41:01Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文参考訳（メタデータ） (2023-03-30T03:22:52Z)
Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文参考訳（メタデータ） (2022-05-10T22:40:17Z)
Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文参考訳（メタデータ） (2021-11-22T11:23:01Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。