Fugu-MT 論文翻訳(概要): DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

論文の概要: DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation

arxiv url: http://arxiv.org/abs/2402.17812v1
Date: Tue, 27 Feb 2024 14:51:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:25:05.031954
Title: DropBP: Accelerating Fine-Tuning of Large Language Models by Dropping Backward Propagation
Title（参考訳）: DropBP: 後方伝播による大規模言語モデルの微調整の高速化
Authors: Sunghyeon Woo, Baeseong Park, Byeongwook Kim, Minjung Jo, Sejung Kwon, Dongsuk Jeon, and Dongsoo Lee
Abstract要約: 精度を保ちながら計算コストを削減するために,DropBP(Drop Backward propagation)を提案する。 DropBPは後方伝播中にランダムに層を落とし、前方伝播を逸脱しない。 QLoRAにおけるDropBPは、トレーニング時間を44%削減し、コンバージェンス速度を1.5$times$に向上し、6.2$times$大きなシーケンス長でトレーニングできることを示した。
参考スコア（独自算出の注目度）: 13.768426626459558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training deep neural networks typically involves substantial computational costs during both forward and backward propagation. The conventional layer dropping techniques drop certain layers during training for reducing the computations burden. However, dropping layers during forward propagation adversely affects the training process by degrading accuracy. In this paper, we propose Dropping Backward Propagation (DropBP), a novel approach designed to reduce computational costs while maintaining accuracy. DropBP randomly drops layers during the backward propagation, which does not deviate forward propagation. Moreover, DropBP calculates the sensitivity of each layer to assign appropriate drop rate, thereby stabilizing the training process. DropBP is designed to enhance the efficiency of the training process with backpropagation, thereby enabling the acceleration of both full fine-tuning and parameter-efficient fine-tuning using backpropagation. Specifically, utilizing DropBP in QLoRA reduces training time by 44%, increases the convergence speed to the identical loss level by 1.5$\times$, and enables training with a 6.2$\times$ larger sequence length on a single NVIDIA-A100 80GiB GPU in LLaMA2-70B. The code is available at https://github.com/WooSunghyeon/dropbp.
Abstract（参考訳）: ディープニューラルネットワークのトレーニングは通常、前方と後方の両方で計算コストがかなりかかる。従来のレイヤドロップテクニックは、計算の負担を軽減するためにトレーニング中に特定のレイヤをドロップする。しかし, 前方伝播時の落下層は, 精度を低下させることでトレーニング過程に悪影響を及ぼす。本稿では,精度を維持しつつ計算コストを削減するための新しい手法であるdropbpを提案する。 DropBPは後方伝播中にランダムに層を落とし、前方伝播を逸脱しない。さらに、DropBPは各層の感度を算出して適切なドロップレートを割り当て、トレーニングプロセスを安定化させる。 DropBPは、バックプロパゲーションによるトレーニングプロセスの効率を高めるために設計されており、バックプロパゲーションを用いた完全な微調整とパラメータ効率の高い微調整の両方の加速を可能にする。具体的には、QLoRAでDropBPを使用すると、トレーニング時間を44%削減し、コンバージェンス速度を1.5$\times$にし、LLaMA2-70Bの1つのNVIDIA-A100 80GiB GPU上で6.2$\times$より大きなシーケンス長でトレーニングすることができる。コードはhttps://github.com/woosunghyeon/dropbpで入手できる。

関連論文リスト

StreamBP: Memory-Efficient Exact Backpropagation for Long Sequence Training of LLMs [8.960494482210919]
本稿では,StreamBP と呼ばれるメモリ効率の高いバックプロパゲーション手法を提案する。 StreamBPは、シーケンス次元に沿ったチェーンルールを階層的に線形分解する。勾配チェックポイントと比較して、StreamBPはBPの最大シーケンス長を2.8-5.5倍にスケールアップする。
論文参考訳（メタデータ） (2025-06-03T16:54:15Z)
PaCA: Partial Connection Adaptation for Efficient Fine-Tuning [11.379377511067732]
モデルにアダプタ層を導入する代わりに、事前訓練した重み内でランダムに選択された部分接続を微調整するPAAを提案する。 LoRAと比較して、PaCAはトレーニング時間を22%削減し、メモリ使用量は16%削減した。
論文参考訳（メタデータ） (2025-02-28T13:30:10Z)
APOLLO: SGD-like Memory, AdamW-level Performance [61.53444035835778]
大規模言語モデル(LLM)は、トレーニング中にメモリ集約的であることで知られている。メモリ使用量を減らすために、様々なメモリ効率のScalが提案されている。 i)コストのかかるSVDオペレーション、(ii)AdamWと比較して大きなパフォーマンストレードオフ、(iii)競争性能を維持する上でのメモリオーバーヘッド、などです。
論文参考訳（メタデータ） (2024-12-06T18:55:34Z)
TBA: Faster Large Language Model Training Using SSD-Based Activation Offloading [13.283682311968752]
TBAは、PyTorch、Megatron、DeepSpeedといった一般的なディープラーニングフレームワークと互換性がある。 TBAはアクティベーションピークメモリ使用量の47%を効果的に削減できることを示す。同時に、TBAは計算とI/Oを完全にオーバーラップし、無視できるパフォーマンスのオーバーヘッドを発生させる。
論文参考訳（メタデータ） (2024-08-19T14:09:48Z)
Adaptive Layer Selection for Efficient Vision Transformer Fine-Tuning [18.776903525210933]
我々は、$textbfALaST$(textitAdaptive Layer Selection Fine-Tuning for Vision Transformers$)と呼ばれるViTの効率的な微調整方法を紹介した。我々のアプローチは、すべての層が微調整中に等しく重要であるわけではなく、その重要性が現在のミニバッチによって異なるという観察に基づいている。この適応型計算アロケーションは,計算資源の分散に最適に近いスケジュールを実現できることを示す。
論文参考訳（メタデータ） (2024-08-16T11:27:52Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。 Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文参考訳（メタデータ） (2024-05-24T13:37:48Z)
When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。 FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文参考訳（メタデータ） (2024-05-08T02:24:09Z)
Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文参考訳（メタデータ） (2023-09-29T13:09:40Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
DIVISION: Memory Efficient Training via Dual Activation Precision [60.153754740511864]
最先端の研究は、量子化ビット幅の探索とトレーニングを組み合わせることで、手順を複雑にし、透明性を損なう。そこで本研究では,DNNトレーニングを簡易かつ効果的に圧縮する手法を提案する。実験結果によると、DIVISIONは10倍以上のアクティベーションマップの圧縮や、モデルの精度を損なうことなく、競争訓練のスループットなど、最先端の手法よりも総合的な性能を示している。
論文参考訳（メタデータ） (2022-08-05T03:15:28Z)
Stochastic Backpropagation: A Memory Efficient Strategy for Training Video Models [42.31924917984774]
本稿では,ビデオ上でディープニューラルネットワークをトレーニングするための,バックプロパゲーション(SBP)というメモリ効率のよい手法を提案する。実験の結果、SBPはビデオタスクの幅広いモデルに適用可能であり、最大80.0%のGPUメモリを節約し、10%のトレーニングスピードアップを実現し、1%未満の精度でアクション認識と時間的アクション検出を行うことができた。
論文参考訳（メタデータ） (2022-03-31T02:24:53Z)
GDP: Stabilized Neural Network Pruning via Gates with Differentiable Polarization [84.57695474130273]
ゲートベースまたは重要度に基づくプルーニング手法は、重要度が最小のチャネルを削除することを目的としている。 GDPは、各チャネルのオン・アンド・オフを制御するために、ベルやホイッスルのない畳み込み層の前に接続することができる。 CIFAR-10とImageNetデータセットを用いて行った実験は、提案したGDPが最先端のパフォーマンスを達成することを示している。
論文参考訳（メタデータ） (2021-09-06T03:17:10Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。