論文の概要: DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping
Backward Propagation
- arxiv url: http://arxiv.org/abs/2402.17812v1
- Date: Tue, 27 Feb 2024 14:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:25:05.031954
- Title: DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping
Backward Propagation
- Title(参考訳): DropBP: 後方伝播による大規模言語モデルの微調整の高速化
- Authors: Sunghyeon Woo, Baeseong Park, Byeongwook Kim, Minjung Jo, Sejung Kwon,
Dongsuk Jeon, and Dongsoo Lee
- Abstract要約: 精度を保ちながら計算コストを削減するために,DropBP(Drop Backward propagation)を提案する。
DropBPは後方伝播中にランダムに層を落とし、前方伝播を逸脱しない。
QLoRAにおけるDropBPは、トレーニング時間を44%削減し、コンバージェンス速度を1.5$times$に向上し、6.2$times$大きなシーケンス長でトレーニングできることを示した。
- 参考スコア(独自算出の注目度): 13.768426626459558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks typically involves substantial computational
costs during both forward and backward propagation. The conventional layer
dropping techniques drop certain layers during training for reducing the
computations burden. However, dropping layers during forward propagation
adversely affects the training process by degrading accuracy. In this paper, we
propose Dropping Backward Propagation (DropBP), a novel approach designed to
reduce computational costs while maintaining accuracy. DropBP randomly drops
layers during the backward propagation, which does not deviate forward
propagation. Moreover, DropBP calculates the sensitivity of each layer to
assign appropriate drop rate, thereby stabilizing the training process. DropBP
is designed to enhance the efficiency of the training process with
backpropagation, thereby enabling the acceleration of both full fine-tuning and
parameter-efficient fine-tuning using backpropagation. Specifically, utilizing
DropBP in QLoRA reduces training time by 44%, increases the convergence speed
to the identical loss level by 1.5$\times$, and enables training with a
6.2$\times$ larger sequence length on a single NVIDIA-A100 80GiB GPU in
LLaMA2-70B. The code is available at https://github.com/WooSunghyeon/dropbp.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングは通常、前方と後方の両方で計算コストがかなりかかる。
従来のレイヤドロップテクニックは、計算の負担を軽減するためにトレーニング中に特定のレイヤをドロップする。
しかし, 前方伝播時の落下層は, 精度を低下させることでトレーニング過程に悪影響を及ぼす。
本稿では,精度を維持しつつ計算コストを削減するための新しい手法であるdropbpを提案する。
DropBPは後方伝播中にランダムに層を落とし、前方伝播を逸脱しない。
さらに、DropBPは各層の感度を算出して適切なドロップレートを割り当て、トレーニングプロセスを安定化させる。
DropBPは、バックプロパゲーションによるトレーニングプロセスの効率を高めるために設計されており、バックプロパゲーションを用いた完全な微調整とパラメータ効率の高い微調整の両方の加速を可能にする。
具体的には、QLoRAでDropBPを使用すると、トレーニング時間を44%削減し、コンバージェンス速度を1.5$\times$にし、LLaMA2-70Bの1つのNVIDIA-A100 80GiB GPU上で6.2$\times$より大きなシーケンス長でトレーニングすることができる。
コードはhttps://github.com/woosunghyeon/dropbpで入手できる。
関連論文リスト
- Efficient Backpropagation with Variance-Controlled Adaptive Sampling [32.297478086982466]
前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
本稿では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、トレーニングプロセス全体の73.87%のFLOPs削減と49.58%のFLOPs削減で、元のトレーニング損失軌跡と検証精度を維持することができる。
論文 参考訳(メタデータ) (2024-02-27T05:40:36Z) - Speeding Up Speech Synthesis In Diffusion Models By Reducing Data
Distribution Recovery Steps Via Content Transfer [3.2634122554914002]
拡散に基づくボコーダはサンプリングに必要な多くのステップのために遅いと批判されている。
本稿では,目標がプロセスの進行時間ステップの異なる出力となる設定を提案する。
提案手法は競争時間帯に高忠実度音声を生成することを示す。
論文 参考訳(メタデータ) (2023-09-18T10:35:27Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - An In-depth Study of Stochastic Backpropagation [44.953669040828345]
本稿では,標準画像分類および物体検出タスクのための深層ニューラルネットワークのトレーニングにおいて,バックプロパゲーション(SBP)について検討する。
後方伝播中、SBPはGPUメモリと計算コストを節約するために、機能マップのサブセットのみを使用することで勾配を計算する。
画像分類とオブジェクト検出の実験は、SBPが最大40%のGPUメモリを1%未満の精度で保存できることを示している。
論文 参考訳(メタデータ) (2022-09-30T23:05:06Z) - DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。
そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。
実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文 参考訳(メタデータ) (2022-08-05T03:15:28Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Stochastic Backpropagation: A Memory Efficient Strategy for Training
Video Models [42.31924917984774]
本稿では,ビデオ上でディープニューラルネットワークをトレーニングするための,バックプロパゲーション(SBP)というメモリ効率のよい手法を提案する。
実験の結果、SBPはビデオタスクの幅広いモデルに適用可能であり、最大80.0%のGPUメモリを節約し、10%のトレーニングスピードアップを実現し、1%未満の精度でアクション認識と時間的アクション検出を行うことができた。
論文 参考訳(メタデータ) (2022-03-31T02:24:53Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。