Fugu-MT 論文翻訳(概要): From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers

論文の概要: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers

arxiv url: http://arxiv.org/abs/2402.01911v1
Date: Fri, 2 Feb 2024 21:25:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 23:25:51.588971
Title: From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers
Title（参考訳）: PEFTからDEFTへ:変圧器の活性化密度低減のためのパラメータ最適化
Authors: Bharat Runwal, Tejaswini Pedapati, Pin-Yu Chen
Abstract要約: そこで本研究では,事前学習したモデルにおいて,高い活性化空間性を促進する新しい密度損失を提案する。提案手法の有効性を,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて実証する。提案手法であるDEFTは,RoBERTa$_mathrmLarge上での活性化密度を一定に低減し,最大$boldsymbol50.72%まで低減できることを示す。
参考スコア（独自算出の注目度）: 58.66678571605656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretrained Language Models (PLMs) have become the de facto starting point for fine-tuning on downstream tasks. However, as model sizes continue to increase, traditional fine-tuning of all parameters becomes challenging. To address this, parameter-efficient fine-tuning (PEFT) methods have gained popularity as a means to adapt PLMs effectively. In parallel, recent studies have revealed the presence of activation sparsity within the intermediate outputs of the multilayer perception (MLP) blocks in transformers. Low activation density enables efficient model inference on sparsity-aware hardware. Building upon this insight, in this work, we propose a novel density loss that encourages higher activation sparsity (equivalently, lower activation density) in the pre-trained models. We demonstrate the effectiveness of our approach by utilizing mainstream PEFT techniques including QLoRA, LoRA, Adapter, Prompt/Prefix Tuning to facilitate efficient model adaptation across diverse downstream tasks. Experiments show that our proposed method DEFT, Density-Efficient Fine-Tuning, can reduce the activation density consistently and up to $\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, and $\boldsymbol {53.19\%}$ (encoder density) and $\boldsymbol{90.60\%}$ (decoder density) on Flan-T5$_\mathrm{XXL}$ ($\boldsymbol{11B}$) compared to PEFT using GLUE and QA (SQuAD) benchmarks respectively while maintaining competitive performance on downstream tasks. We also showcase that DEFT works complementary with quantized and pruned models
Abstract（参考訳）: 事前訓練言語モデル(PLM)は下流タスクの微調整の事実上の出発点となっている。しかし、モデルのサイズが増大し続ければ、従来のパラメータの微調整は困難になる。これを解決するために,パラメータ効率のよい微調整法(PEFT)がPLMを効果的に適応する手段として人気を集めている。並行して、近年の研究では、トランスにおけるMLPブロックの中間出力内に活性化空間の存在が明らかにされている。低アクティベーション密度は、スパーシティアウェアハードウェア上で効率的なモデル推論を可能にする。そこで本研究では, この知見に基づいて, 事前学習モデルにおいて高い活性化スパーシティ(同等に低い活性化密度)を促進する新しい密度損失を提案する。本稿では,QLoRA,LoRA,Adapter,Prompt/Prefix TuningなどのPEFT技術を用いて,様々な下流タスクにまたがる効率的なモデル適応を実現する手法の有効性を示す。実験の結果,提案手法は,Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{50.72\%}$ on RoBERTa$_\mathrm{Large}$, $\boldsymbol {53.19\%}$ (エンコーダ密度), $\boldsymbol{90.60\%}$ (デコーダ密度) on Flan-T5$_\mathrm{XXL}$$$$\boldsymbol{11B}$)に対して,それぞれGLUEおよびQA(SQuAD)ベンチマークを用いたPEFTと比較して,活性化密度を一定に低減できることがわかった。また、DEFTは量子化およびプルーニングされたモデルと相補的に動作することを示す。

関連論文リスト

Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。 IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文参考訳（メタデータ） (2024-10-29T05:50:17Z)
SparseGrad: A Selective Method for Efficient Fine-tuning of MLP Layers [88.68985153780514]
本稿では,パラメータブロックでよく動作する選択型PEFT法,すなわちSparseGradを提案する。 SparseGrad を NLU タスクに BERT と RoBERTa を,質問応答タスクに LLaMa-2 を適用した。
論文参考訳（メタデータ） (2024-10-09T19:03:52Z)
Parameter-Efficient Fine-Tuning via Selective Discrete Cosine Transform [10.565509997395504]
本稿では,このフロンティアを推し進めるために,Selective Discrete Cosine Transformation (SDCTFT) を提案する。その一般的な考え方は、DCTの優れたエネルギー圧縮とデコリレーション特性を活用することである。 4つのベンチマークデータセットの実験では、より優れた精度、計算コストの削減、ストレージ要求の低減が示されている。
論文参考訳（メタデータ） (2024-10-09T16:07:42Z)
Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文参考訳（メタデータ） (2024-05-24T13:12:14Z)
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。 Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文参考訳（メタデータ） (2024-05-23T15:34:53Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。 LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文参考訳（メタデータ） (2024-02-18T01:20:00Z)
FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文参考訳（メタデータ） (2024-01-08T17:29:16Z)
Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文参考訳（メタデータ） (2023-12-19T06:06:30Z)
Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning [6.451743797015637]
本稿では,事前学習した言語モデルに対するメモリ効率のよい微調整(MEFT)を提案する。 MEFTはアダプタをPLMに挿入し、PLMの開始点を保ち、追加の事前訓練なしで可逆的にすることができる。 MEFTは、トレーニング可能なパラメータの無視量でフル微調整の84%まで、アクティベーションメモリを大幅に削減する。
論文参考訳（メタデータ） (2023-06-01T09:26:17Z)
Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers [20.23085795744602]
textbfAdaptive textbfSparsity textbfPALS(textbfPALS)を提案する。 PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。
論文参考訳（メタデータ） (2023-05-28T06:57:27Z)
AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning [112.97430455461097]
本稿では,各トランスフォーマー層に導入される適応モジュールの混合を調整し,PLMの重みの大半を凍結させながら,汎用PEFT法を提案する。 PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。
論文参考訳（メタデータ） (2022-10-31T16:23:36Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。