論文の概要: NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09773v2
- Date: Thu, 27 Jun 2024 04:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 19:37:12.786782
- Title: NutePrune: Efficient Progressive Pruning with Numerous Teachers for Large Language Models
- Title(参考訳): NutePrune:大規模言語モデルのための多数の教師による効率的なプログレッシブ・プルーニング
- Authors: Shengrui Li, Junzhe Chen, Xueting Han, Jing Bai,
- Abstract要約: 本研究では, 効率的なプログレッシブ・テラス・プルーニング法 (NutePrune) を提案する。
NutePruneは、1つの無傷モデルのみをロードし、さまざまなマスクやLoRAモジュールと統合することで、過剰なメモリコストを軽減する。
LLaMA-7B実験では、NutePruneはオリジナルのモデルの97.17%を20%の間隔で、95.07%を25%の間隔で維持している。
- 参考スコア(独自算出の注目度): 2.9449838351181374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The considerable size of Large Language Models (LLMs) presents notable deployment challenges, particularly on resource-constrained hardware. Structured pruning, offers an effective means to compress LLMs, thereby reducing storage costs and enhancing inference speed for more efficient utilization. In this work, we study data-efficient and resource-efficient structure pruning methods to obtain smaller yet still powerful models. Knowledge Distillation is well-suited for pruning, as the intact model can serve as an excellent teacher for pruned students. However, it becomes challenging in the context of LLMs due to memory constraints. To address this, we propose an efficient progressive Numerous-teacher pruning method (NutePrune). NutePrune mitigates excessive memory costs by loading only one intact model and integrating it with various masks and LoRA modules, enabling it to seamlessly switch between teacher and student roles. This approach allows us to leverage numerous teachers with varying capacities to progressively guide the pruned model, enhancing overall performance. Extensive experiments across various tasks demonstrate the effectiveness of NutePrune. In LLaMA-7B zero-shot experiments, NutePrune retains 97.17% of the performance of the original model at 20% sparsity and 95.07% at 25% sparsity. Our code is available at https://github.com/Lucius-lsr/NutePrune.
- Abstract(参考訳): LLM(Large Language Models)のかなりのサイズは、特にリソース制約のあるハードウェアにおいて、注目すべきデプロイメント課題を提示している。
構造化プルーニング(Structured pruning)は、LLMを圧縮し、ストレージコストを削減し、より効率的な利用のために推論速度を向上する効果的な手段を提供する。
本研究では,データ効率と資源効率を両立させる構造解析手法について検討した。
知識蒸留はプルーニングに適しており、無傷モデルはプルーニングの学生にとって優れた教師として機能する。
しかし、メモリ制約のため、LLMの文脈では困難になる。
そこで本稿では, 効率的なプログレッシブなNumerous-Teacher pruning法(NutePrune)を提案する。
NutePruneは、1つの無傷モデルのみを読み込んで、さまざまなマスクとLoRAモジュールに統合することで、過剰なメモリコストを軽減し、教師と学生の役割をシームレスに切り替えることを可能にする。
このアプローチにより、様々な能力を持つ教師を活用でき、段階的にプルーニングモデルを指導し、全体的な性能を向上させることができる。
さまざまなタスクにわたる大規模な実験は、NutePruneの有効性を示している。
LLaMA-7Bゼロショット実験では、NutePruneはオリジナルのモデルの性能の97.17%を20%の間隔で、95.07%を25%の間隔で保持している。
私たちのコードはhttps://github.com/Lucius-lsr/NutePrune.comで利用可能です。
関連論文リスト
- PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - BESA: Pruning Large Language Models with Blockwise Parameter-Efficient Sparsity Allocation [54.28841287750586]
大規模言語モデル(LLM)は、テキスト要約、テキスト質問応答など、様々なタスクにおいて優れたパフォーマンスを示してきた。
SparseGPTやWandaといった既存のソリューションは、重み付けによってこの問題を緩和しようと試みている。
本稿では,ブロックワイド再構成損失を適用して,ブロックワイドパラメータ効率の空間割当(BESA)と呼ばれる新しいLCMプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T12:44:15Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。