論文の概要: Mesa: A Memory-saving Training Framework for Transformers
- arxiv url: http://arxiv.org/abs/2111.11124v1
- Date: Mon, 22 Nov 2021 11:23:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 22:16:54.769465
- Title: Mesa: A Memory-saving Training Framework for Transformers
- Title(参考訳): Mesa: トランスフォーマーのためのメモリ節約トレーニングフレームワーク
- Authors: Zizheng Pan, Peng Chen, Haoyu He, Jing Liu, Jianfei Cai, Bohan Zhuang
- Abstract要約: 本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
- 参考スコア(独自算出の注目度): 58.78933015299703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been an explosion of interest in designing high-performance
Transformers. While Transformers have delivered significant performance
improvements, training such networks is extremely memory intensive owing to
storing all intermediate activations that are needed for gradient computation
during backpropagation, especially for long sequences. To this end, we present
Mesa, a memory-saving resource-efficient training framework for Transformers.
Specifically, Mesa uses exact activations during forward pass while storing a
low-precision version of activations to reduce memory consumption during
training. The low-precision activations are then dequantized during
back-propagation to compute gradients. Besides, to address the heterogeneous
activation distributions in the multi-head self-attention layers, we propose a
head-wise activation quantization strategy, which quantizes activations based
on the statistics of each head to minimize the approximation error. To further
boost training efficiency, we learn quantization parameters by running
estimates. More importantly, by re-investing the saved memory in employing a
larger batch size or scaling up model size, we may further improve the
performance under constrained computational resources. Extensive experiments on
ImageNet, CIFAR-100 and ADE20K demonstrate that Mesa can reduce half of the
memory footprints during training while achieving comparable or even better
performance. Code is available at https://github.com/zhuang-group/Mesa
- Abstract(参考訳): 高性能トランスフォーマーの設計に対する関心は爆発的に高まっている。
Transformerは大幅なパフォーマンス向上を実現しているが、特に長いシーケンスにおいて、バックプロパゲーション中の勾配計算に必要なすべての中間アクティベーションを格納するため、そのようなネットワークのトレーニングは非常にメモリ集約的である。
そこで本研究では,トランスフォーマーのためのメモリ省資源効率トレーニングフレームワークmesaを提案する。
特にMesaは、フォワードパス中に正確なアクティベーションを使用し、低精度バージョンのアクティベーションを格納することで、トレーニング中のメモリ消費を削減している。
低精度のアクティベーションは、計算勾配のバックプロパゲーション中に非等化される。
また,多頭部自己付着層における不均質な活性化分布に対処するために,頭部の統計に基づいて活性化を定量化し近似誤差を最小化する頭回り活性化量子化戦略を提案する。
トレーニング効率をさらに高めるため,推定値を用いて量子化パラメータを学習する。
さらに重要なことに、より大きなバッチサイズやモデルサイズをスケールアップするために保存メモリを再投資することで、制約のある計算リソース下での性能をさらに向上させることができる。
imagenet、cifar-100、ade20kでの広範な実験により、mesaはトレーニング中のメモリフットプリントの半分を削減でき、同等あるいはそれ以上のパフォーマンスを達成できる。
コードはhttps://github.com/zhuang-group/Mesaで入手できる。
関連論文リスト
- Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Tempo: Accelerating Transformer-Based Model Training through Memory
Footprint Reduction [3.5831119917067737]
本研究では,Transformerベースのモデルのトレーニングにアクセラレーションメモリリソースを効率的に利用するための新しいアプローチであるTempoを提案する。
このアプローチは、GELU、LayerNorm、Attentionレイヤのドロップイン置換を提供し、メモリ使用量を削減します。
我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
論文 参考訳(メタデータ) (2022-10-19T01:59:37Z) - Reducing Activation Recomputation in Large Transformer Models [17.810669621463962]
本稿では,アクティベーション再計算を減らし,大規模変圧器モデルのトレーニングを大幅に高速化する方法を示す。
シーケンス並列性と選択的アクティベーション再計算の2つの新しい手法を提案する。
本手法は,アクティベーションメモリを5倍に削減し,アクティベーション再計算のオーバーヘッドを90%以上削減する。
論文 参考訳(メタデータ) (2022-05-10T22:40:17Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。