論文の概要: DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models
- arxiv url: http://arxiv.org/abs/2410.09344v1
- Date: Sat, 12 Oct 2024 03:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:03:37.989602
- Title: DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models
- Title(参考訳): Delta-Parameter Pruning for Fine-Tuned Models(動画あり)
- Authors: Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li, Christos Thrampoulidis,
- Abstract要約: DAREx-qは,高い刈取速度で性能を著しく向上させる再スケーリング係数の修正である。
我々は、DAREx-qが、LoRAのようなバニラパラメータ効率の良い微調整技術とシームレスに結合できることを実証した。
我々はDPPにおける重要度に基づくプルーニング手法の適用を再検討し、デルタパラメータが大きい場合のランダムな手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 39.411072236355515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Storing open-source fine-tuned models separately introduces redundancy and increases response times in applications utilizing multiple models. Delta-parameter pruning (DPP), particularly the random drop and rescale (DARE) method proposed by Yu et al., addresses this by pruning the majority of delta parameters--the differences between fine-tuned and pre-trained model weights--while typically maintaining minimal performance loss. However, DARE fails when either the pruning rate or the magnitude of the delta parameters is large. We highlight two key reasons for this failure: (1) an excessively large rescaling factor as pruning rates increase, and (2) high mean and variance in the delta parameters. To push DARE's limits, we introduce DAREx (DARE the eXtreme), which features two algorithmic improvements: (1) DAREx-q, a rescaling factor modification that significantly boosts performance at high pruning rates (e.g., >30 % on COLA and SST2 for encoder models, with even greater gains in decoder models), and (2) DAREx-L2, which combines DARE with AdamR, an in-training method that applies appropriate delta regularization before DPP. We also demonstrate that DAREx-q can be seamlessly combined with vanilla parameter-efficient fine-tuning techniques like LoRA and can facilitate structural DPP. Additionally, we revisit the application of importance-based pruning techniques within DPP, demonstrating that they outperform random-based methods when delta parameters are large. Through this comprehensive study, we develop a pipeline for selecting the most appropriate DPP method under various practical scenarios.
- Abstract(参考訳): オープンソースで微調整されたモデルをストアすることは、冗長性を別々に導入し、複数のモデルを利用するアプリケーションの応答時間を増加させる。
デルタパラメータ・プルーニング(DPP)、特にYuらによって提案されたランダム・ドロップ・アンド・リスケール(DARE)法は、デルタパラメータの大部分をプルーニングすることでこの問題に対処する。
しかし、DAREはプルーニング率またはデルタパラメータの大きさが大きい場合に失敗する。
この失敗の主な理由として,(1)プルーニング率の増加に伴う過大な再スケーリング係数,(2)デルタパラメータの平均値とばらつきがあげられる。
DAREの限界を推し進めるために,(1) DAREx-q(DAREx-q),(2) DAREx-L2(DAREとDPP前のデルタ正則化を適切に適用した訓練手法)の2つのアルゴリズム改良を特徴とするDAREx-L2を導入する。
また、DAREx-qは、LoRAのようなバニラパラメータ効率の良い微調整技術とシームレスに結合でき、構造的DPPを容易にできることを示した。
さらに、DPPにおける重要度に基づくプルーニング手法の適用を再検討し、デルタパラメータが大きい場合のランダムな手法よりも優れていることを示す。
この包括的研究を通じて,様々なシナリオにおいて最適な DPP 法を選択するパイプラインを開発した。
関連論文リスト
- Activated Parameter Locating via Causal Intervention for Model Merging [26.98015572633289]
モデルマージは複数のモデルを1つのモデルに組み合わせ、追加のトレーニングを必要とせずに、説得力のある一般化を実現する。
既存のモデルでは、デルタパラメータの一部を落として、パフォーマンスを維持しながらコンフリクトを緩和できることが示されている。
本稿では、因果的介入を利用して重要度を推定し、より正確なパラメータのドロップとコンフリクトの軽減を可能にするアクティブ・ロケーティング(APL)手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T14:00:00Z) - Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for
Parameter-Efficient BERT [6.029590006321152]
本稿では、下流タスクのための感度駆動効率の良いBERTモデルの微調整であるSensi-BERTを提案する。
実験の結果,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。
論文 参考訳(メタデータ) (2023-07-14T17:24:15Z) - OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of
Pre-trained Models [81.7855202178564]
我々は,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することで,制限を克服するオープンソースライブラリであるOpenDeltaを提案する。
我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。
論文 参考訳(メタデータ) (2023-07-05T16:30:14Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - A Generic Network Compression Framework for Sequential Recommender
Systems [71.81962915192022]
シークエンシャルレコメンデーションシステム(SRS)は,ユーザの動的関心を捉え,高品質なレコメンデーションを生成する上で重要な技術となっている。
CpRecと呼ばれる圧縮されたシーケンシャルレコメンデーションフレームワークを提案する。
大規模なアブレーション研究により、提案したCpRecは実世界のSRSデータセットにおいて最大4$sim$8倍の圧縮速度を達成できることを示した。
論文 参考訳(メタデータ) (2020-04-21T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。