論文の概要: PaReprop: Fast Parallelized Reversible Backpropagation
- arxiv url: http://arxiv.org/abs/2306.09342v1
- Date: Thu, 15 Jun 2023 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 12:56:27.890292
- Title: PaReprop: Fast Parallelized Reversible Backpropagation
- Title(参考訳): pareprop: 高速並列化可逆バックプロパゲーション
- Authors: Tyler Zhu and Karttikeya Mangalam
- Abstract要約: 非常にメモリ効率のよいトレーニングのためのエキサイティングな新しい方法として、可逆変換器が導入されている。
それらは、バックプロパゲーションフェーズにおけるアクティベーション再計算のさらなる計算オーバーヘッドを伴っている。
本稿では,高速並列化可逆バックプロパゲーションアルゴリズムPaRepropを提案する。
- 参考スコア(独自算出の注目度): 6.901732343162485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing size of datasets and deep learning models has made faster and
memory-efficient training crucial. Reversible transformers have recently been
introduced as an exciting new method for extremely memory-efficient training,
but they come with an additional computation overhead of activation
re-computation in the backpropagation phase. We present PaReprop, a fast
Parallelized Reversible Backpropagation algorithm that parallelizes the
additional activation re-computation overhead in reversible training with the
gradient computation itself in backpropagation phase. We demonstrate the
effectiveness of the proposed PaReprop algorithm through extensive benchmarking
across model families (ViT, MViT, Swin and RoBERTa), data modalities (Vision &
NLP), model sizes (from small to giant), and training batch sizes. Our
empirical results show that PaReprop achieves up to 20% higher training
throughput than vanilla reversible training, largely mitigating the theoretical
overhead of 25% lower throughput from activation recomputation in reversible
training. Project page: https://tylerzhu.com/pareprop.
- Abstract(参考訳): データセットとディープラーニングモデルの増大は、高速かつメモリ効率のトレーニングを重要視している。
リバーシブルトランスフォーマは、メモリ効率の高いトレーニングのためのエキサイティングな新しい方法として最近導入されたが、バックプロパゲーションフェーズでのアクティベーション再計算の計算オーバーヘッドが増す。
本研究では,並列化可能な逆プロパゲーションアルゴリズムparepropを提案する。このアルゴリズムは,逆プロパゲーションフェーズにおける勾配計算自体と可逆学習における追加の活性化再計算オーバーヘッドを並列化する。
提案手法は,モデルファミリ (vit, mvit, swin, roberta) ,データモダリティ (vision & nlp) ,モデルサイズ (smallから giant) およびバッチサイズのトレーニングを通じて,parepropアルゴリズムの有効性を示す。
実験の結果,PaRepropはバニラ可逆トレーニングよりも最大20%高いトレーニングスループットを達成でき,可逆トレーニングにおけるアクティベーション再計算から25%低いスループットの理論的オーバーヘッドを軽減できることがわかった。
プロジェクトページ: https://tylerzhu.com/pareprop.com
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - PERP: Rethinking the Prune-Retrain Paradigm in the Era of LLMs [24.64264715041198]
イテレーティブ・マグニチュード・プルーニング(IMP)のような単純で効果的な手法は、重要でないパラメータを排除し、プルーニング後にパフォーマンスを回復するためにコストのかかるトレーニング手順を必要とする。
LLM(Large Language Models)の台頭により、メモリと計算の制約により、完全なリトレーニングが不可能になった。
GPTアーキテクチャのパラメータの0.27%-0.35%しか再トレーニングを行ない、One Shotに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-12-23T11:45:22Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study
on Image Restoration [21.79667520132755]
本稿では、FPをアンロールし、FPformerと呼ばれるTransformerブロックを介して各アンロールされたプロセスを近似するフレームワークを提案する。
トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いて,提案手法を画像復元に適用する。
FPformer、FPRformer、FPAformerは、自己教師付き事前学習と教師付き微調整を用いて、最先端の画像復元法と競争性能と訓練効率の向上を実現している。
論文 参考訳(メタデータ) (2023-01-29T02:59:14Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Dithered backprop: A sparse and quantized backpropagation algorithm for
more efficient deep neural network training [18.27946970159625]
ディザド・バックプロップと名付けたバックプロップの計算コストを削減する手法を提案する。
本手法は,8ビットまでのトレーニングのビット精度を低下させる,最先端のトレーニング手法と完全互換であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。