Fugu-MT 論文翻訳(概要): SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics

論文の概要: SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics

arxiv url: http://arxiv.org/abs/2305.18513v1
Date: Mon, 29 May 2023 17:50:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 19:56:47.669083
Title: SlimFit: Memory-Efficient Fine-Tuning of Transformer-based Models Using Training Dynamics
Title（参考訳）: slimfit:トレーニングダイナミクスを用いたトランスフォーマーモデルのメモリ効率の良い微調整
Authors: Arash Ardakani, Altan Haan, Shangyin Tan, Doru Thom Popovici, Alvin Cheung, Costin Iancu, Koushik Sen
Abstract要約: BERTやViTのようなトランスフォーマーベースのモデルは、異なる自然言語処理(NLP)とコンピュータビジョン(CV)タスクで最先端の結果を得た。これらのモデルは、微調整過程において非常にメモリ集約的である。我々はSlimFitと呼ばれる新しいツールを導入し、これらのモデルのメモリ要求を動的に解析することで削減する。
参考スコア（独自算出の注目度）: 16.94357817641467
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based models, such as BERT and ViT, have achieved state-of-the-art results across different natural language processing (NLP) and computer vision (CV) tasks. However, these models are extremely memory intensive during their fine-tuning process, making them difficult to deploy on GPUs with limited memory resources. To address this issue, we introduce a new tool called SlimFit that reduces the memory requirements of these models by dynamically analyzing their training dynamics and freezing less-contributory layers during fine-tuning. The layers to freeze are chosen using a runtime inter-layer scheduling algorithm. SlimFit adopts quantization and pruning for particular layers to balance the load of dynamic activations and to minimize the memory footprint of static activations, where static activations refer to those that cannot be discarded regardless of freezing. This allows SlimFit to freeze up to 95% of layers and reduce the overall on-device GPU memory usage of transformer-based models such as ViT and BERT by an average of 2.2x, across different NLP and CV benchmarks/datasets such as GLUE, SQuAD 2.0, CIFAR-10, CIFAR-100 and ImageNet with an average degradation of 0.2% in accuracy. For such NLP and CV tasks, SlimFit can reduce up to 3.1x the total on-device memory usage with an accuracy degradation of only up to 0.4%. As a result, while fine-tuning of ViT on ImageNet and BERT on SQuAD 2.0 with a batch size of 128 requires 3 and 2 32GB GPUs respectively, SlimFit enables their fine-tuning on a single 32GB GPU without any significant accuracy degradation.
Abstract（参考訳）: BERTやViTのようなトランスフォーマーベースのモデルは、異なる自然言語処理(NLP)とコンピュータビジョン(CV)タスクで最先端の結果を得た。しかしながら、これらのモデルは微調整プロセス中に非常にメモリ集約的であるため、メモリリソースの制限されたgpuへのデプロイが困難である。この問題に対処するため、我々はSlimFitという新しいツールを導入し、これらのモデルのメモリ要件を動的に解析し、微調整中に少ないコントリビュータ層を凍結することで削減する。凍結する層は、実行時層間スケジューリングアルゴリズムを用いて選択される。 slimfitでは、動的アクティベーションの負荷のバランスと静的アクティベーションのメモリフットプリントの最小化のために、特定のレイヤの量子化とプルーニングを採用している。これにより、SlimFitは95%のレイヤを凍結し、ViTやBERTといったトランスフォーマーベースのモデル全体のGPUメモリ使用量を平均2.2倍に削減し、GLUE、SQuAD 2.0、CIFAR-10、CIFAR-100、ImageNetなどの異なるNLPおよびCVベンチマーク/データセットを平均0.2%の精度で削減できる。このようなNLPおよびCVタスクでは、SlimFitはデバイス上のメモリ使用量の最大3.1倍を削減でき、精度は0.4%まで低下する。その結果、ImageNet上のViTと、バッチサイズ128のSQuAD 2.0上のBERTでは、それぞれ3と2の32GBのGPUを必要とする一方で、SlimFitは、大きな精度の劣化なしに、単一の32GBのGPU上での微調整を可能にする。

関連論文リスト

FlashSVD: Memory-Efficient Inference with Streaming for Low-Rank Models [15.244129138320782]
FlashSVDは、SVD圧縮された大規模言語モデルのためのエンドツーエンドのランクアウェアストリーミング推論フレームワークである。ピークアクティベーションメモリを最大70.2%削減し、中間のトランジェントメモリを75%削減する。アップストリームエンコード圧縮法では精度の低下は生じず、低ランクLLMのメモリ制約による展開への実践的な経路を提供する。
論文参考訳（メタデータ） (2025-08-02T22:06:46Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Dynamic Gradient Sparse Update for Edge Training [0.0502254944841629]
トレーニングにおけるバックプロパゲーションの勾配計算は、中間機能と計算損失を格納するために、大きなメモリバッファを必要とする。これはマイクロコントローラのようなメモリ制限されたエッジデバイスでは受け入れられない。本稿では,メモリ使用量を削減するために動的勾配スパース更新を用いたトレーニングアクセラレーション手法を提案する。
論文参考訳（メタデータ） (2025-03-23T06:32:12Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Block Selective Reprogramming for On-device Training of Vision Transformers [12.118303034660531]
本稿では,事前学習したモデルのブロック全体のごく一部のみを微調整するブロック選択型再プログラミング(BSR)を提案する。既存の代替手法と比較して、トレーニングメモリを最大1.4倍、計算コストを最大2倍に削減する。
論文参考訳（メタデータ） (2024-03-25T08:41:01Z)
Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文参考訳（メタデータ） (2024-02-08T19:01:14Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文参考訳（メタデータ） (2022-06-30T17:59:08Z)
Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。 FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文参考訳（メタデータ） (2022-05-03T14:51:53Z)
Stochastic Backpropagation: A Memory Efficient Strategy for Training Video Models [42.31924917984774]
本稿では,ビデオ上でディープニューラルネットワークをトレーニングするための,バックプロパゲーション(SBP)というメモリ効率のよい手法を提案する。実験の結果、SBPはビデオタスクの幅広いモデルに適用可能であり、最大80.0%のGPUメモリを節約し、10%のトレーニングスピードアップを実現し、1%未満の精度でアクション認識と時間的アクション検出を行うことができた。
論文参考訳（メタデータ） (2022-03-31T02:24:53Z)
Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-03-12T07:00:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。