論文の概要: LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.18403v3
- Date: Tue, 3 Oct 2023 12:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 08:16:45.952685
- Title: LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
- Title(参考訳): LoRAPrune:低ランクパラメータ効率のファインチューニングを実現するPruning
- Authors: Mingyang Zhang and Hao Chen and Chunhua Shen and Zhen Yang and Linlin
Ou and Xinyi Yu and Bohan Zhuang
- Abstract要約: 低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 59.74018108967818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models (LPMs), such as LLaMA and GLM, have shown
exceptional performance across various tasks through fine-tuning. Although
low-rank adaption (LoRA) has emerged to cheaply fine-tune these LPMs on
downstream tasks, their deployment is still hindered by the vast model scale
and computational costs. Neural network pruning offers a way to compress LPMs.
However, the current pruning methods designed for LPMs are not compatible with
LoRA. This is due to their utilization of unstructured pruning on LPMs,
impeding the merging of LoRA weights, or their dependence on the gradients of
pre-trained weights to guide pruning, which can impose significant memory
overhead. To this end, we propose LoRAPrune, a new framework that delivers an
accurate, compact model for efficient inference in a highly memory-effective
manner. Specifically, we first design a LoRA-guided pruning criterion, which
uses the weights and gradients of LoRA, rather than the gradients of
pre-trained weights for importance estimation. We then propose a structured
iterative pruning procedure, to remove redundant channels and heads. Extensive
experimental results demonstrate the superior performance of our LoRAPrune over
existing approaches on the LLaMA series models. For instance, at a 50\%
compression rate, LoRAPrune outperforms LLM-Pruner by a perplexity reduction of
8.0 on WikiText2 and 16.05 on PTB datasets, while concurrently reducing memory
usage by 52.6\%. The code will be released after review
- Abstract(参考訳): LLaMAやGLMのような大型の事前学習モデル(LPM)は、微調整によって様々なタスクにおいて例外的な性能を示している。
低ランク適応(LoRA)は、下流のタスクでこれらのLPMを安価に微調整するために登場したが、それでもその展開は膨大なモデルスケールと計算コストによって妨げられている。
ニューラルネットワークプルーニングは、LPMを圧縮する方法を提供する。
しかし、LPM用に設計された現在のプルーニング方式はLoRAと互換性がない。
これは、LPM上での非構造的プルーニングの利用、LoRA重みの合併を妨げること、またはプレトレーニングされた重みの勾配に依存してプルーニングを誘導することによる。
そこで本稿では,メモリ効率の高い推論のために,高精度でコンパクトなモデルを提供する新しいフレームワークであるlorapruneを提案する。
具体的には,重要度評価のための事前学習重量の勾配ではなく,loraの重みと勾配を用いるlora誘導プルーニング基準を最初に設計した。
次に,冗長なチャネルやヘッドを除去するための構造的反復的プルーニング手法を提案する。
LLaMA シリーズモデルにおける既存のアプローチよりも,LoRAPrune の方が優れた性能を示した。
例えば、圧縮率50\%のLoRAPruneは、WikiText2では8.0、TBデータセットでは16.05、メモリ使用率52.6\%でLLM-Prunerを上回っている。
コードはレビュー後にリリースされる
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。