論文の概要: SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using
Training Dynamics
- arxiv url: http://arxiv.org/abs/2305.18513v1
- Date: Mon, 29 May 2023 17:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:56:47.669083
- Title: SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using
Training Dynamics
- Title(参考訳): slimfit:トレーニングダイナミクスを用いたトランスフォーマーモデルのメモリ効率の良い微調整
- Authors: Arash Ardakani, Altan Haan, Shangyin Tan, Doru Thom Popovici, Alvin
Cheung, Costin Iancu, Koushik Sen
- Abstract要約: BERTやViTのようなトランスフォーマーベースのモデルは、異なる自然言語処理(NLP)とコンピュータビジョン(CV)タスクで最先端の結果を得た。
これらのモデルは、微調整過程において非常にメモリ集約的である。
我々はSlimFitと呼ばれる新しいツールを導入し、これらのモデルのメモリ要求を動的に解析することで削減する。
- 参考スコア(独自算出の注目度): 16.94357817641467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models, such as BERT and ViT, have achieved
state-of-the-art results across different natural language processing (NLP) and
computer vision (CV) tasks. However, these models are extremely memory
intensive during their fine-tuning process, making them difficult to deploy on
GPUs with limited memory resources. To address this issue, we introduce a new
tool called SlimFit that reduces the memory requirements of these models by
dynamically analyzing their training dynamics and freezing less-contributory
layers during fine-tuning. The layers to freeze are chosen using a runtime
inter-layer scheduling algorithm. SlimFit adopts quantization and pruning for
particular layers to balance the load of dynamic activations and to minimize
the memory footprint of static activations, where static activations refer to
those that cannot be discarded regardless of freezing. This allows SlimFit to
freeze up to 95% of layers and reduce the overall on-device GPU memory usage of
transformer-based models such as ViT and BERT by an average of 2.2x, across
different NLP and CV benchmarks/datasets such as GLUE, SQuAD 2.0, CIFAR-10,
CIFAR-100 and ImageNet with an average degradation of 0.2% in accuracy. For
such NLP and CV tasks, SlimFit can reduce up to 3.1x the total on-device memory
usage with an accuracy degradation of only up to 0.4%. As a result, while
fine-tuning of ViT on ImageNet and BERT on SQuAD 2.0 with a batch size of 128
requires 3 and 2 32GB GPUs respectively, SlimFit enables their fine-tuning on a
single 32GB GPU without any significant accuracy degradation.
- Abstract(参考訳): BERTやViTのようなトランスフォーマーベースのモデルは、異なる自然言語処理(NLP)とコンピュータビジョン(CV)タスクで最先端の結果を得た。
しかしながら、これらのモデルは微調整プロセス中に非常にメモリ集約的であるため、メモリリソースの制限されたgpuへのデプロイが困難である。
この問題に対処するため、我々はSlimFitという新しいツールを導入し、これらのモデルのメモリ要件を動的に解析し、微調整中に少ないコントリビュータ層を凍結することで削減する。
凍結する層は、実行時層間スケジューリングアルゴリズムを用いて選択される。
slimfitでは、動的アクティベーションの負荷のバランスと静的アクティベーションのメモリフットプリントの最小化のために、特定のレイヤの量子化とプルーニングを採用している。
これにより、SlimFitは95%のレイヤを凍結し、ViTやBERTといったトランスフォーマーベースのモデル全体のGPUメモリ使用量を平均2.2倍に削減し、GLUE、SQuAD 2.0、CIFAR-10、CIFAR-100、ImageNetなどの異なるNLPおよびCVベンチマーク/データセットを平均0.2%の精度で削減できる。
このようなNLPおよびCVタスクでは、SlimFitはデバイス上のメモリ使用量の最大3.1倍を削減でき、精度は0.4%まで低下する。
その結果、ImageNet上のViTと、バッチサイズ128のSQuAD 2.0上のBERTでは、それぞれ3と2の32GBのGPUを必要とする一方で、SlimFitは、大きな精度の劣化なしに、単一の32GBのGPU上での微調整を可能にする。
関連論文リスト
- Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - Stochastic Backpropagation: A Memory Efficient Strategy for Training
Video Models [42.31924917984774]
本稿では,ビデオ上でディープニューラルネットワークをトレーニングするための,バックプロパゲーション(SBP)というメモリ効率のよい手法を提案する。
実験の結果、SBPはビデオタスクの幅広いモデルに適用可能であり、最大80.0%のGPUメモリを節約し、10%のトレーニングスピードアップを実現し、1%未満の精度でアクション認識と時間的アクション検出を行うことができた。
論文 参考訳(メタデータ) (2022-03-31T02:24:53Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z) - TinyTL: Reduce Activations, Not Trainable Parameters for Efficient
On-Device Learning [78.80707950262214]
デバイス上での学習により、エッジデバイスはAIモデルを新しいデータに継続的に適応できる。
既存の作業は、トレーニング可能なパラメータの数を減らすことで、この問題を解決する。
メモリ効率の高いオンデバイス学習のためのTiny-Transfer-Learning(TinyTL)を提案する。
論文 参考訳(メタデータ) (2020-07-22T18:39:53Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。