Fugu-MT 論文翻訳(概要): Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning

論文の概要: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning

arxiv url: http://arxiv.org/abs/2305.18403v1
Date: Sun, 28 May 2023 15:15:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 21:32:26.653423
Title: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning
Title（参考訳）: 低ランクパラメータ効率のファインチューニングを実現するPruning
Authors: Mingyang Zhang and Haozhen and Chunhua Shen and Zhen Yang and Linlin Ou and Xinyi Yu and Bohan Zhuang
Abstract要約: 我々は、事前学習モデル(LPM)の効率的な微調整と展開のための統一的なフレームワークを提案する。まず,Low-Rank Adaption (LoRA) の値と勾配を利用するPEFT対応プルーニング基準を設計する。次に,PEFTの利点を最大化しつつ,冗長なパラメータを除去する反復的プルーニング手法を提案する。
参考スコア（独自算出の注目度）: 65.98604030616458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large pre-trained models (LPMs), such as LLaMA and ViT-G, have shown exceptional performance across various tasks. Although parameter-efficient fine-tuning (PEFT) has emerged to cheaply fine-tune these large models on downstream tasks, their deployment is still hindered by the vast model scale and computational costs. Neural network pruning offers a solution for model compression by removing redundant parameters, but most existing methods rely on computing parameter gradients. However, obtaining the gradients is computationally prohibitive for LPMs, which necessitates the exploration of alternative approaches. To this end, we propose a unified framework for efficient fine-tuning and deployment of LPMs, termed LoRAPrune. We first design a PEFT-aware pruning criterion, which utilizes the values and gradients of Low-Rank Adaption (LoRA), rather than the gradients of pre-trained parameters for importance estimation. We then propose an iterative pruning procedure to remove redundant parameters while maximizing the advantages of PEFT. Thus, our LoRAPrune delivers an accurate, compact model for efficient inference in a highly cost-effective manner. Experimental results on various tasks demonstrate that our method achieves state-of-the-art results. For instance, in the VTAB-1k benchmark, LoRAPrune utilizes only 0.76% of the trainable parameters and outperforms magnitude and movement pruning methods by a significant margin, achieving a mean Top-1 accuracy that is 5.7% and 4.3% higher, respectively. Moreover, our approach achieves comparable performance to PEFT methods, highlighting its efficacy in delivering high-quality results while benefiting from the advantages of pruning.
Abstract（参考訳）: LLaMAやViT-Gのような大型の事前学習モデル(LPM)は、様々なタスクにおいて例外的な性能を示している。これらの大規模モデルを下流タスクで安価に微調整するためにパラメータ効率の良い微調整(peft)が登場したが、その展開は巨大なモデルスケールと計算コストによって依然として妨げられている。ニューラルネットワークのプルーニングは冗長パラメータを除去することでモデル圧縮のソリューションを提供するが、既存の手法のほとんどはパラメータ勾配の計算に依存している。しかし、勾配を求めることは、代替アプローチの探索を必要とするLPMに対して計算的に禁じられている。そこで我々は,LoRAPrune と呼ばれる LPM の微細調整と展開を効率的に行うための統一的なフレームワークを提案する。重要度推定のための事前学習パラメータの勾配ではなく,低ランク適応(lora)の値と勾配を利用するペフトアウェアプルーニング基準をまず設計する。次に,PEFTの利点を最大化しつつ,冗長パラメータを除去する反復的プルーニング手法を提案する。そこで,我々のLoRAPruneは,効率的な推論のための高精度でコンパクトなモデルを提供する。各種課題に対する実験結果から,本手法が最先端の成果をもたらすことを示す。例えば、VTAB-1kベンチマークでは、LoRAPruneはトレーニング可能なパラメータのわずか0.76%しか使用せず、それぞれ5.7%と4.3%のTop-1精度を達成している。さらに,peft法と同等の性能を達成し,pruningの利点を享受しながら高品質な結果を提供する効果を強調する。

関連論文リスト

Beyond SGD, Without SVD: Proximal Subspace Iteration LoRA with Diagonal Fractional K-FAC [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。本研究では,ローランクプロジェクション(SVDLoRA)とローラファインチューニング(LoRAファインタニング)のフルステップでのトレーニングのギャップに対処する。勾配降下のギャップを埋めるメモリ効率の良いサブルーチンであるLoRSumを提案する。
論文参考訳（メタデータ） (2026-02-18T13:41:41Z)
Faster Than SVD, Smarter Than SGD: The OPLoRA Alternating Update [50.36542772932594]
Low-Rank Adaptation (LoRA) は、凍結重量の上の低ランク更新を学習することで、大きなモデルを微調整する。ローランクプロジェクションによる完全なトレーニング(SVDLoRA)とLoRAファインチューニングの間にはまだギャップがあり、LoRAのステップをさらに改善できることを示している。
論文参考訳（メタデータ） (2025-09-24T10:32:50Z)
LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades [21.91864562492083]
LLM(Large Language Models)の更新に特化して設計されたモジュール型アプローチであるLoRASuiteを提案する。 LoRASuiteは、小さなバニラのLoRAメソッドを一貫して上回っている。メモリ消費を5.5GB、計算時間を78.23%削減する。
論文参考訳（メタデータ） (2025-05-17T04:11:17Z)
Reinforcement Learning for LLM Reasoning Under Memory Constraints [0.02488650627593658]
本稿では,グループ相対政策最適化のメモリ効率向上版であるS-GRPOと,よりきめ細かいクレジットカード代入のためのトークンレベルのプレフィックスマッチング戦略であるT-SPMOを紹介する。限られたリソースにもかかわらず、Qwen2-1.5Bを微調整する場合、両方の手法はLoRAトレーニングを使用してSVAMPベンチマークの精度を46%から70%以上改善した。両タスクのモデル性能(ベースモデルと比較)は,LoRAファインチューニングによるGRPOベースラインでは改善されなかった。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。 LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。 LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文参考訳（メタデータ） (2025-02-20T18:37:32Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文参考訳（メタデータ） (2024-02-05T09:44:49Z)
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-01-08T14:26:49Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。