論文の概要: NutePrune: Efficient Progressive Pruning with Numerous Teachers for
Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09773v1
- Date: Thu, 15 Feb 2024 08:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:27:28.492235
- Title: NutePrune: Efficient Progressive Pruning with Numerous Teachers for
Large Language Models
- Title(参考訳): nuteprune: 大規模言語モデルのための多数の教師による効率的なプログレッシブプラニング
- Authors: Shengrui Li, Xueting Han, Jing Bai
- Abstract要約: 本研究では, 効率的なプログレッシブ・テラス・プルーニング法 (NutePrune) を提案する。
NutePruneは、1つの無傷モデルのみをロードし、さまざまなマスクやLoRAモジュールと統合することで、過剰なメモリコストを軽減する。
LLaMA-7B実験では、NutePruneはオリジナルのモデルの97.17%を20%の間隔で、95.07%を25%の間隔で維持している。
- 参考スコア(独自算出の注目度): 2.69499085779099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The considerable size of Large Language Models (LLMs) presents notable
deployment challenges, particularly on resource-constrained hardware.
Structured pruning, offers an effective means to compress LLMs, thereby
reducing storage costs and enhancing inference speed for more efficient
utilization. In this work, we study data-efficient and resource-efficient
structure pruning methods to obtain smaller yet still powerful models.
Knowledge Distillation is well-suited for pruning, as the intact model can
serve as an excellent teacher for pruned students. However, it becomes
challenging in the context of LLMs due to memory constraints. To address this,
we propose an efficient progressive Numerous-teacher pruning method
(NutePrune). NutePrune mitigates excessive memory costs by loading only one
intact model and integrating it with various masks and LoRA modules, enabling
it to seamlessly switch between teacher and student roles. This approach allows
us to leverage numerous teachers with varying capacities to progressively guide
the pruned model, enhancing overall performance. Extensive experiments across
various tasks demonstrate the effectiveness of NutePrune. In LLaMA-7B zero-shot
experiments, NutePrune retains 97.17% of the performance of the original model
at 20% sparsity and 95.07% at 25% sparsity.
- Abstract(参考訳): 大規模言語モデル(llm)のかなりのサイズは、特にリソース制約のあるハードウェアにおいて、注目すべきデプロイメント上の課題を示している。
構造化プルーニングは、LLMを圧縮し、ストレージコストを削減し、より効率的な利用のために推論速度を向上させる効果的な手段を提供する。
本研究では,データ効率と資源効率のよい構造プランニング手法について検討し,より小さく,かつ強力なモデルを得る。
知識蒸留は刈り取りに適しており、無傷モデルは刈り取り生徒の優れた教師として機能する。
しかし、メモリ制約のため、LLMの文脈では困難になる。
そこで本稿では, 効率的なプログレッシブなNumerous-Teacher pruning法(NutePrune)を提案する。
NutePruneは、1つの無傷モデルのみを読み込んで、さまざまなマスクとLoRAモジュールに統合することで、過剰なメモリコストを軽減し、教師と学生の役割をシームレスに切り替えることを可能にする。
このアプローチにより、様々な能力を持つ教師を活用でき、段階的にプルーニングモデルを指導し、全体的な性能を向上させることができる。
さまざまなタスクにわたる大規模な実験は、NutePruneの有効性を示している。
LLaMA-7Bゼロショット実験では、NutePruneはオリジナルのモデルの性能の97.17%を20%、95.07%を25%で維持している。
関連論文リスト
- Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study [3.5189934649278922]
GitHub Copilotのような大規模言語モデル(LLM)は、微調整なしで現実世界のタスクに苦労する。
本稿では,LoRA, (IA)3, およびプロンプトチューニングを含む各種PEFT法について検討する。
その結果,PEFT法は単体テスト生成のための完全微調整に匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-04T09:03:18Z) - MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router [55.88046193872355]
Mixture-of-Experts (MoE)アーキテクチャは、専門家のメモリ消費や冗長性といった課題に直面している。
入力アクティベーションとルータ重みを乗じて最小の重みを求める手法であるMoE-Prunerを提案する。
我々の刈り取り法は単発であり、再訓練や重み更新は不要である。
論文 参考訳(メタデータ) (2024-10-15T19:22:27Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs [47.35598271306371]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な機能を示しているが、その膨大なパラメータサイズは、リソース制約のある設定での適用性を制限している。
知識蒸留(KD)は、大規模な教師モデルからコンパクトな学生モデルに専門知識を移すことによって、実行可能なソリューションを提供する。
PLaD は新規な嗜好に基づく LLM 蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-06-05T03:08:25Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。