論文の概要: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.18403v1
- Date: Sun, 28 May 2023 15:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 21:32:26.653423
- Title: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
- Title(参考訳): 低ランクパラメータ効率のファインチューニングを実現するPruning
- Authors: Mingyang Zhang and Haozhen and Chunhua Shen and Zhen Yang and Linlin
Ou and Xinyi Yu and Bohan Zhuang
- Abstract要約: 我々は、事前学習モデル(LPM)の効率的な微調整と展開のための統一的なフレームワークを提案する。
まず,Low-Rank Adaption (LoRA) の値と勾配を利用するPEFT対応プルーニング基準を設計する。
次に,PEFTの利点を最大化しつつ,冗長なパラメータを除去する反復的プルーニング手法を提案する。
- 参考スコア(独自算出の注目度): 65.98604030616458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models (LPMs), such as LLaMA and ViT-G, have shown
exceptional performance across various tasks. Although parameter-efficient
fine-tuning (PEFT) has emerged to cheaply fine-tune these large models on
downstream tasks, their deployment is still hindered by the vast model scale
and computational costs. Neural network pruning offers a solution for model
compression by removing redundant parameters, but most existing methods rely on
computing parameter gradients. However, obtaining the gradients is
computationally prohibitive for LPMs, which necessitates the exploration of
alternative approaches. To this end, we propose a unified framework for
efficient fine-tuning and deployment of LPMs, termed LoRAPrune. We first design
a PEFT-aware pruning criterion, which utilizes the values and gradients of
Low-Rank Adaption (LoRA), rather than the gradients of pre-trained parameters
for importance estimation. We then propose an iterative pruning procedure to
remove redundant parameters while maximizing the advantages of PEFT. Thus, our
LoRAPrune delivers an accurate, compact model for efficient inference in a
highly cost-effective manner. Experimental results on various tasks demonstrate
that our method achieves state-of-the-art results. For instance, in the VTAB-1k
benchmark, LoRAPrune utilizes only 0.76% of the trainable parameters and
outperforms magnitude and movement pruning methods by a significant margin,
achieving a mean Top-1 accuracy that is 5.7% and 4.3% higher, respectively.
Moreover, our approach achieves comparable performance to PEFT methods,
highlighting its efficacy in delivering high-quality results while benefiting
from the advantages of pruning.
- Abstract(参考訳): LLaMAやViT-Gのような大型の事前学習モデル(LPM)は、様々なタスクにおいて例外的な性能を示している。
これらの大規模モデルを下流タスクで安価に微調整するためにパラメータ効率の良い微調整(peft)が登場したが、その展開は巨大なモデルスケールと計算コストによって依然として妨げられている。
ニューラルネットワークのプルーニングは冗長パラメータを除去することでモデル圧縮のソリューションを提供するが、既存の手法のほとんどはパラメータ勾配の計算に依存している。
しかし、勾配を求めることは、代替アプローチの探索を必要とするLPMに対して計算的に禁じられている。
そこで我々は,LoRAPrune と呼ばれる LPM の微細調整と展開を効率的に行うための統一的なフレームワークを提案する。
重要度推定のための事前学習パラメータの勾配ではなく,低ランク適応(lora)の値と勾配を利用するペフトアウェアプルーニング基準をまず設計する。
次に,PEFTの利点を最大化しつつ,冗長パラメータを除去する反復的プルーニング手法を提案する。
そこで,我々のLoRAPruneは,効率的な推論のための高精度でコンパクトなモデルを提供する。
各種課題に対する実験結果から,本手法が最先端の成果をもたらすことを示す。
例えば、VTAB-1kベンチマークでは、LoRAPruneはトレーニング可能なパラメータのわずか0.76%しか使用せず、それぞれ5.7%と4.3%のTop-1精度を達成している。
さらに,peft法と同等の性能を達成し,pruningの利点を享受しながら高品質な結果を提供する効果を強調する。
関連論文リスト
- LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
微調整作業におけるローランド適応 (LoRA) の層間特性について検討し, 異なる層にまたがる重みノルムの非一般的な歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けました。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [55.00074572087611]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - NOLA: Compressing LoRA using Linear Combination of Random Basis [22.76088132446952]
我々は、ロラに存在するランク1の下界を克服するNOLAを導入する。
NOLAは、ランク1のLoRAと比較してパラメータ数がはるかに少ないLoRAモデルと同様に、最高の圧縮LoRAをアーカイブできる。
論文 参考訳(メタデータ) (2023-10-04T03:30:24Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。