論文の概要: Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11772v1
- Date: Tue, 15 Oct 2024 16:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:03:50.524288
- Title: Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models
- Title(参考訳): レイヤーワイズ重要事項:大規模言語モデルのパラメータ効率の良い微調整における性能向上のためのメモリ不足
- Authors: Kai Yao, Penlei Gao, Lichun Li, Yuan Zhao, Xiaofeng Wang, Wei Wang, Jianke Zhu,
- Abstract要約: Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
- 参考スコア(独自算出の注目度): 18.640124808233836
- License:
- Abstract: Parameter-Efficient Fine-Tuning (PEFT) methods have gained significant popularity for adapting pre-trained Large Language Models (LLMs) to downstream tasks, primarily due to their potential to significantly reduce memory and computational overheads. However, a common limitation in most PEFT approaches is their application of a uniform architectural design across all layers. This uniformity involves identical trainable modules and ignores the varying importance of each layer, leading to sub-optimal fine-tuning results. To overcome the above limitation and obtain better performance, we develop a novel approach, Importance-aware Sparse Tuning (IST), to fully utilize the inherent sparsity and select the most important subset of full layers with effective layer-wise importance scoring. The proposed IST is a versatile and plug-and-play technique compatible with various PEFT methods that operate on a per-layer basis. By leveraging the estimated importance scores, IST dynamically updates these selected layers in PEFT modules, leading to reduced memory demands. We further provide theoretical proof of convergence and empirical evidence of superior performance to demonstrate the advantages of IST over uniform updating strategies. Extensive experiments on a range of LLMs, PEFTs, and downstream tasks substantiate the effectiveness of our proposed method, showcasing IST's capacity to enhance existing layer-based PEFT methods. Our code is available at https://github.com/Kaiseem/IST.
- Abstract(参考訳): パラメータ効率の良いファインチューニング(PEFT)法は、主にメモリと計算オーバーヘッドを大幅に削減する可能性から、下流タスクに事前訓練された大規模言語モデル(LLM)を適用することで大きな人気を得ている。
しかしながら、ほとんどのPEFTアプローチで共通する制限は、すべての層にまたがる一様アーキテクチャ設計の適用である。
この均一性は、同一のトレーニング可能なモジュールを伴い、各レイヤのさまざまな重要性を無視し、最適以下の微調整結果をもたらす。
上記の制限を克服し、性能を向上させるために、本手法であるImportance-Aware Sparse Tuning (IST)を開発した。
提案した IST は多目的・プラグ・アンド・プレイ方式であり,様々なPEFT 法と互換性があり,層ごとの動作が可能である。
推定された重要度スコアを活用することで、ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
さらに、一様更新戦略よりもISTの利点を実証するために、収束の理論的証明と優れた性能の実証的証明を提供する。
LLM,PEFT,下流タスクの広範囲にわたる実験により,提案手法の有効性を実証し,既存のレイヤベースPEFT手法の強化を目的としたISTの能力を示す。
私たちのコードはhttps://github.com/Kaiseem/ISTで公開されています。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Bilevel ZOFO: Bridging Parameter-Efficient and Zeroth-Order Techniques for Efficient LLM Fine-Tuning and Meta-Training [44.48966200270378]
First-Order (FO)imats を用いた下流タスクのための微調整済みのLarge Language Model (LLMs) は、重要な計算課題を示す。
本稿では,ZO法をPEFTで補完し,ハードプロンプトに対する感度を緩和する二段階最適化フレームワークを提案する。
我々のBilevel ZOFO法では,PEFTモデルの勾配とベースモデルの前方通過のみを必要とする二重ループ最適化方式を採用している。
論文 参考訳(メタデータ) (2025-02-05T20:47:44Z) - Interweaving Memories of a Siamese Large Language Model [9.60026229476874]
本稿では,シームズ大言語モデルの記憶を織り込むモデル非依存のPEFTフレームワークを提案する。
IMSMは背骨PEFT法と同等の時間と空間効率を維持している。
論文 参考訳(メタデータ) (2024-12-23T08:33:47Z) - Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models [14.68920095399595]
SPEFT(Sparsity-based PEFT)は、モデルの重み行列にトレーニング可能なスパース適応を導入する。
我々は、ゼロコストNASプロキシにインスパイアされたSPEFTのサリエンス指標を初めて体系的に評価した。
我々の研究は、PEFTに複雑性が不可欠であるという考えに挑戦する。
論文 参考訳(メタデータ) (2024-12-18T04:14:35Z) - Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models [63.52035708182815]
自動PEFT(BIPEFT)のための新しいBudget-Guided Iterative Search戦略を提案する。
BIPEFTはバイナリモジュールとランク次元検索空間をアンタングルするために,新たな反復探索方式を採用している。
公開ベンチマークの大規模な実験は、パラメータ予算の低い下流タスクにおいて、BIPEFTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T18:50:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques
for LLMs [1.867982979635437]
各種PEFT手法のベンチマークを行い、異なるデータスケールでモデル性能を評価する。
一般的な信念とは対照的に、PEFT手法は低データシナリオにおいて完全なチューニングよりも遅く収束することを実証的に証明する。
さらに,モデルのどの部分を訓練するかを選択的に選択することで,これらのPEFT手法をさらに最適化する。
論文 参考訳(メタデータ) (2023-04-28T17:39:49Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。