論文の概要: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers
- arxiv url: http://arxiv.org/abs/2402.01911v1
- Date: Fri, 2 Feb 2024 21:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:25:51.588971
- Title: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing
Activation Density in Transformers
- Title(参考訳): PEFTからDEFTへ:変圧器の活性化密度低減のためのパラメータ最適化
- Authors: Bharat Runwal, Tejaswini Pedapati, Pin-Yu Chen
- Abstract要約: そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。
提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。
提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
- 参考スコア(独自算出の注目度): 58.66678571605656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained Language Models (PLMs) have become the de facto starting point for
fine-tuning on downstream tasks. However, as model sizes continue to increase,
traditional fine-tuning of all parameters becomes challenging. To address this,
parameter-efficient fine-tuning (PEFT) methods have gained popularity as a
means to adapt PLMs effectively. In parallel, recent studies have revealed the
presence of activation sparsity within the intermediate outputs of the
multilayer perception (MLP) blocks in transformers. Low activation density
enables efficient model inference on sparsity-aware hardware. Building upon
this insight, in this work, we propose a novel density loss that encourages
higher activation sparsity (equivalently, lower activation density) in the
pre-trained models. We demonstrate the effectiveness of our approach by
utilizing mainstream PEFT techniques including QLoRA, LoRA, Adapter,
Prompt/Prefix Tuning to facilitate efficient model adaptation across diverse
downstream tasks. Experiments show that our proposed method DEFT,
Density-Efficient Fine-Tuning, can reduce the activation density consistently
and up to $\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, and $\boldsymbol
{53.19\%}$ (encoder density) and $\boldsymbol{90.60\%}$ (decoder density) on
Flan-T5$_\mathrm{XXL}$ ($\boldsymbol{11B}$) compared to PEFT using GLUE and QA
(SQuAD) benchmarks respectively while maintaining competitive performance on
downstream tasks. We also showcase that DEFT works complementary with quantized
and pruned models
- Abstract(参考訳): 事前訓練言語モデル(PLM)は下流タスクの微調整の事実上の出発点となっている。
しかし、モデルのサイズが増大し続ければ、従来のパラメータの微調整は困難になる。
これを解決するために,パラメータ効率のよい微調整法(PEFT)がPLMを効果的に適応する手段として人気を集めている。
並行して、近年の研究では、トランスにおけるMLPブロックの中間出力内に活性化空間の存在が明らかにされている。
低アクティベーション密度は、スパーシティアウェアハードウェア上で効率的なモデル推論を可能にする。
そこで本研究では, この知見に基づいて, 事前学習モデルにおいて高い活性化スパーシティ(同等に低い活性化密度)を促進する新しい密度損失を提案する。
本稿では,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて,様々な下流タスクにまたがる効率的なモデル適応を実現する手法の有効性を示す。
実験の結果,提案手法は,Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, $\boldsymbol {53.19\%}$ (エンコーダ密度), $\boldsymbol{90.60\%}$ (デコーダ密度) on Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{11B}$)に対して,それぞれGLUEおよびQA(SQuAD)ベンチマークを用いたPEFTと比較して,活性化密度を一定に低減できることがわかった。
また、DEFTは量子化およびプルーニングされたモデルと相補的に動作することを示す。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Model [105.63770797908127]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization [81.55024300036388]
下流タスク適応のための原則的微調整パラダイムである直交微調整(Orthogonal Finetuning, OFT)について検討する。
優れた一般化性を示しているにもかかわらず、OFTはまだかなり多くのトレーニング可能なパラメータを使っている。
我々はこのパラメータ化をOFTに適用し、ORFT(Orthogonal Butterfly)と呼ばれる新しいパラメータ効率の微調整法を開発した。
論文 参考訳(メタデータ) (2023-11-10T18:59:54Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Adaptive Sparsity Level during Training for Efficient Time Series
Forecasting with Transformers [8.99827064269123]
我々はtextbfAdaptive textbfSparsity textbfLevel (textbfPALS) を用いたtextbfPruning を提案する。
論文 参考訳(メタデータ) (2023-05-28T06:57:27Z) - Parameter-Efficient Language Model Tuning with Active Learning in
Low-Resource Settings [3.490038106567192]
テキスト分類タスクの低リソース設定におけるアクティブラーニング(AL)とパラメータ効率細調整(PEFT)の相互作用について検討した。
本研究は,低リソース環境下でのFFTよりもPEFTの方が優れていることを実証し,この利点がAL設定で持続することを示した。
本研究は、低リソース環境におけるALとPEFTの相乗的ポテンシャルを強調し、効率的かつ効果的な微調整の進歩の道を開くものである。
論文 参考訳(メタデータ) (2023-05-23T23:27:20Z) - AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。
PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-31T16:23:36Z) - QuaLA-MiniLM: a Quantized Length Adaptive MiniLM [5.36703735486629]
限られた計算予算は、トランスフォーマーを生産に使用せず、高い精度で使用することを防ぐことが多い。
知識蒸留法では、BERTを自己蒸留して、より少ない層と少ない内部埋め込みを持つより小さな変換器表現に変換することにより、計算効率に対処する。
Dynamic-TinyBERTは、Longth Adaptive Transformer (LAT) 技術をTinyBERTに部分的に実装し、最小限の精度でBERTベース上でx3スピードアップする。
我々は,LAT法と併用してMiniLM蒸留を行い,低ビット量子化を適用して効率をさらに高めている。
論文 参考訳(メタデータ) (2022-10-31T07:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。