論文の概要: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers
- arxiv url: http://arxiv.org/abs/2402.01911v1
- Date: Fri, 2 Feb 2024 21:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:25:51.588971
- Title: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers
- Title(参考訳): PEFTからDEFTへ:変圧器の活性化密度低減のためのパラメータ最適化
- Authors: Bharat Runwal, Tejaswini Pedapati, Pin-Yu Chen
- Abstract要約: そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
- 参考スコア(独自算出の注目度): 58.66678571605656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Language Models (PLMs) have become the de facto starting point for
fine-tuning on downstream tasks. However, as model sizes continue to increase,
traditional fine-tuning of all parameters becomes challenging. To address this,
parameter-efficient fine-tuning (PEFT) methods have gained popularity as a
means to adapt PLMs effectively. In parallel, recent studies have revealed the
presence of activation sparsity within the intermediate outputs of the
multilayer perception (MLP) blocks in transformers. Low activation density
enables efficient model inference on sparsity-aware hardware. Building upon
this insight, in this work, we propose a novel density loss that encourages
higher activation sparsity (equivalently, lower activation density) in the
pre-trained models. We demonstrate the effectiveness of our approach by
utilizing mainstream PEFT techniques including QLoRA, LoRA, Adapter,
Prompt/Prefix Tuning to facilitate efficient model adaptation across diverse
downstream tasks. Experiments show that our proposed method DEFT,
Density-Efficient Fine-Tuning, can reduce the activation density consistently
and up to $\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, and $\boldsymbol
{53.19\%}$ (encoder density) and $\boldsymbol{90.60\%}$ (decoder density) on
Flan-T5$_\mathrm{XXL}$ ($\boldsymbol{11B}$) compared to PEFT using GLUE and QA
(SQuAD) benchmarks respectively while maintaining competitive performance on
downstream tasks. We also showcase that DEFT works complementary with quantized
and pruned models
- Abstract(参考訳): 事前訓練言語モデル(PLM)は下流タスクの微調整の事実上の出発点となっている。
しかし、モデルのサイズが増大し続ければ、従来のパラメータの微調整は困難になる。
これを解決するために,パラメータ効率のよい微調整法(PEFT)がPLMを効果的に適応する手段として人気を集めている。
並行して、近年の研究では、トランスにおけるMLPブロックの中間出力内に活性化空間の存在が明らかにされている。
低アクティベーション密度は、スパーシティアウェアハードウェア上で効率的なモデル推論を可能にする。
そこで本研究では, この知見に基づいて, 事前学習モデルにおいて高い活性化スパーシティ(同等に低い活性化密度)を促進する新しい密度損失を提案する。
本稿では,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて,様々な下流タスクにまたがる効率的なモデル適応を実現する手法の有効性を示す。
実験の結果,提案手法は,Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, $\boldsymbol {53.19\%}$ (エンコーダ密度), $\boldsymbol{90.60\%}$ (デコーダ密度) on Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{11B}$)に対して,それぞれGLUEおよびQA(SQuAD)ベンチマークを用いたPEFTと比較して,活性化密度を一定に低減できることがわかった。
また、DEFTは量子化およびプルーニングされたモデルと相補的に動作することを示す。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。
SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文 参考訳(メタデータ) (2024-10-09T19:03:52Z) - Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform [10.565509997395504]
本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (SDCTFT) を提案する。
その一般的な考え方は、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。
4つのベンチマークデータセットの実験では、より優れた精度、計算コストの削減、ストレージ要求の低減が示されている。
論文 参考訳(メタデータ) (2024-10-09T16:07:42Z) - Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。
実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。
また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文 参考訳(メタデータ) (2024-05-24T13:12:14Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Make Pre-trained Model Reversible: From Parameter to Memory Efficient
Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。
MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。
MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文 参考訳(メタデータ) (2023-06-01T09:26:17Z) - Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。
PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。
スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。