Fugu-MT 論文翻訳(概要): Mesa: A Memory-saving Training Framework for Transformers

論文の概要: Mesa: A Memory-saving Training Framework for Transformers

arxiv url: http://arxiv.org/abs/2111.11124v1
Date: Mon, 22 Nov 2021 11:23:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-23 22:16:54.769465
Title: Mesa: A Memory-saving Training Framework for Transformers
Title（参考訳）: Mesa: トランスフォーマーのためのメモリ節約トレーニングフレームワーク
Authors: Zizheng Pan, Peng Chen, Haoyu He, Jing Liu, Jianfei Cai, Bohan Zhuang
Abstract要約: 本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。 Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。 ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
参考スコア（独自算出の注目度）: 58.78933015299703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There has been an explosion of interest in designing high-performance Transformers. While Transformers have delivered significant performance improvements, training such networks is extremely memory intensive owing to storing all intermediate activations that are needed for gradient computation during backpropagation, especially for long sequences. To this end, we present Mesa, a memory-saving resource-efficient training framework for Transformers. Specifically, Mesa uses exact activations during forward pass while storing a low-precision version of activations to reduce memory consumption during training. The low-precision activations are then dequantized during back-propagation to compute gradients. Besides, to address the heterogeneous activation distributions in the multi-head self-attention layers, we propose a head-wise activation quantization strategy, which quantizes activations based on the statistics of each head to minimize the approximation error. To further boost training efficiency, we learn quantization parameters by running estimates. More importantly, by re-investing the saved memory in employing a larger batch size or scaling up model size, we may further improve the performance under constrained computational resources. Extensive experiments on ImageNet, CIFAR-100 and ADE20K demonstrate that Mesa can reduce half of the memory footprints during training while achieving comparable or even better performance. Code is available at https://github.com/zhuang-group/Mesa
Abstract（参考訳）: 高性能トランスフォーマーの設計に対する関心は爆発的に高まっている。 Transformerは大幅なパフォーマンス向上を実現しているが、特に長いシーケンスにおいて、バックプロパゲーション中の勾配計算に必要なすべての中間アクティベーションを格納するため、そのようなネットワークのトレーニングは非常にメモリ集約的である。そこで本研究では,トランスフォーマーのためのメモリ省資源効率トレーニングフレームワークmesaを提案する。特にMesaは、フォワードパス中に正確なアクティベーションを使用し、低精度バージョンのアクティベーションを格納することで、トレーニング中のメモリ消費を削減している。低精度のアクティベーションは、計算勾配のバックプロパゲーション中に非等化される。また,多頭部自己付着層における不均質な活性化分布に対処するために,頭部の統計に基づいて活性化を定量化し近似誤差を最小化する頭回り活性化量子化戦略を提案する。トレーニング効率をさらに高めるため,推定値を用いて量子化パラメータを学習する。さらに重要なことに、より大きなバッチサイズやモデルサイズをスケールアップするために保存メモリを再投資することで、制約のある計算リソース下での性能をさらに向上させることができる。 imagenet、cifar-100、ade20kでの広範な実験により、mesaはトレーニング中のメモリフットプリントの半分を削減でき、同等あるいはそれ以上のパフォーマンスを達成できる。コードはhttps://github.com/zhuang-group/Mesaで入手できる。

関連論文リスト

Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。我々は,MEMOがMegatron-LMやDeepSpeedと比較して平均2.42倍,2.26倍のMFUを達成することを示す。
論文参考訳（メタデータ） (2024-07-16T18:59:49Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文参考訳（メタデータ） (2024-03-25T08:41:01Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Tempo: Accelerating Transformer-Based Model Training through Memory Footprint Reduction [3.5831119917067737]
本研究では,Transformerベースのモデルのトレーニングにアクセラレーションメモリリソースを効率的に利用するための新しいアプローチであるTempoを提案する。このアプローチは、GELU、LayerNorm、Attentionレイヤのドロップイン置換を提供し、メモリ使用量を削減します。我々はTempoが最先端のベースラインよりも最大2倍高いバッチサイズと16%高いトレーニングスループットを実現することを実証した。
論文参考訳（メタデータ） (2022-10-19T01:59:37Z)
ActNN: Reducing Training Memory Footprint via 2-Bit Activation Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。 ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文参考訳（メタデータ） (2021-04-29T05:50:54Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。