論文の概要: ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization
- arxiv url: http://arxiv.org/abs/2311.13171v1
- Date: Wed, 22 Nov 2023 05:28:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 16:09:12.895910
- Title: ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization
- Title(参考訳): ComPEFT:スカラー化と量子化によるパラメータ効率向上のための圧縮
- Authors: Prateek Yadav, Leshem Choshen, Colin Raffel, Mohit Bansal
- Abstract要約: PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
- 参考スコア(独自算出の注目度): 100.90624220423634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient fine-tuning (PEFT) techniques make it possible to
efficiently adapt a language model to create "expert" models that specialize to
new tasks or domains. Recent techniques in model merging and compositional
generalization leverage these expert models by dynamically composing modules to
improve zero/few-shot generalization. Despite the efficiency of PEFT methods,
the size of expert models can make it onerous to retrieve expert models per
query over high-latency networks like the Internet or serve multiple experts on
a single GPU. To address these issues, we present ComPEFT, a novel method for
compressing fine-tuning residuals (task vectors) of PEFT based models. ComPEFT
employs sparsification and ternary quantization to reduce the size of the PEFT
module without performing any additional retraining while preserving or
enhancing model performance. In extensive evaluation across T5, T0, and
LLaMA-based models with 200M - 65B parameters, ComPEFT achieves compression
ratios of 8x - 50x. In particular, we show that ComPEFT improves with scale -
stronger models exhibit higher compressibility and better performance. For
example, we show that ComPEFT applied to LLaMA outperforms QLoRA by 4.16% on
MMLU with a storage size reduction of up to 26x. In addition, we show that the
compressed experts produced by ComPEFT maintain few-shot compositional
generalization capabilities, facilitate efficient communication and
computation, and exhibit enhanced performance when merged. Lastly, we provide
an analysis of different method components, compare it with other PEFT methods,
and test ComPEFT's efficacy for compressing the residual of full-finetuning.
Our code is available at https://github.com/prateeky2806/compeft.
- Abstract(参考訳): パラメータ効率の良い微調整(PEFT)技術により、言語モデルを効率的に適応し、新しいタスクやドメインに特化した"エキスパート"モデルを作成することができる。
モデルマージと合成一般化における最近の技術は、0/fewショット一般化を改善するために動的にモジュールを構成することによって、これらのエキスパートモデルを活用する。
PEFT手法の効率にもかかわらず、エキスパートモデルのサイズは、インターネットのような高遅延ネットワーク上でクエリ当たりのエキスパートモデルを検索したり、1つのGPUで複数の専門家にサービスを提供することを困難にすることができる。
これらの問題に対処するために,我々は,PEFT ベースモデルの微調整残差(タスクベクトル)を圧縮する新しい手法 ComPEFT を提案する。
ComPEFTは、PEFTモジュールのサイズを縮小するために、モデル性能を維持したり強化したりすることなく、スペーシフィケーションと3次量子化を用いている。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
特に,より強固なモデルでは圧縮性が向上し,性能も向上することを示す。
例えば、LLaMAに適用したComPEFTは、最大26倍のストレージサイズでMMLUでQLoRAを4.16%上回る性能を示した。
さらに,ComPEFTが生成した圧縮された専門家は,数発の合成一般化機能を維持し,効率的な通信と計算を容易にするとともに,マージ時の性能向上を示す。
最後に,異なる手法成分の分析を行い,他のPEFT法と比較し,フルファインタニングの残差を圧縮するためのComPEFTの有効性を検証した。
私たちのコードはhttps://github.com/prateeky2806/compeftで利用可能です。
関連論文リスト
- Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Light-PEFT: Lightening Parameter-Efficient Fine-Tuning via Early Pruning [17.032155725171958]
本稿では,基礎モデルの仮設初期計画とPEFTの多官能初期計画の2つの手法を含むLight-PEFTフレームワークを提案する。
PEFT法を直接利用するのに対し、Light-PEFTはトレーニングと推論の高速化を実現し、メモリ使用量を削減し、同等のパフォーマンスを維持する。
論文 参考訳(メタデータ) (2024-06-06T07:03:29Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Context-PEFT: Efficient Multi-Modal, Multi-Task Fine-Tuning [12.648711621637663]
この論文は小説を紹介します。
COCO-Efficient Fine-Tuning (PEFT) framework for multi-modal, multi-task transfer learning with pre-trained language model。
トークンのドメインに基づいて異なる適応パラメータ群を学習するContext-PEFTを提案する。
提案手法はキャプションタスクで評価され、類似したデータ制約下での完全な微調整よりも優れる。
論文 参考訳(メタデータ) (2023-12-14T13:00:24Z) - Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning
for Versatile Multimodal Modeling [42.42235704360381]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、幅広いタスクにおいて優れた性能を示す。
これらの大規模化により、関心のあるタスクを前提とした、完全に専門的なモデルへの適応と展開が不可能になる。
本研究では,AdaLinkを,競合性能を実現する非侵入型PEFT技術として記述する。
論文 参考訳(メタデータ) (2023-10-18T16:43:08Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Empirical Analysis of the Strengths and Weaknesses of PEFT Techniques
for LLMs [1.867982979635437]
各種PEFT手法のベンチマークを行い、異なるデータスケールでモデル性能を評価する。
一般的な信念とは対照的に、PEFT手法は低データシナリオにおいて完全なチューニングよりも遅く収束することを実証的に証明する。
さらに,モデルのどの部分を訓練するかを選択的に選択することで,これらのPEFT手法をさらに最適化する。
論文 参考訳(メタデータ) (2023-04-28T17:39:49Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z) - UniPELT: A Unified Framework for Parameter-Efficient Language Model
Tuning [64.638804236566]
本稿では,異なるPELTメソッドをサブモジュールとして組み込んだ統一フレームワークUniPELTを提案する。
注目すべきは、GLUEベンチマークにおいて、UniPELTは、異なる設定で微調整を組み込んだり、性能を上回る、最高のPELTメソッドと比較して、一貫して13パーセントのゲインを達成していることだ。
論文 参考訳(メタデータ) (2021-10-14T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。