論文の概要: NutePrune: Efficient Progressive Pruning with Numerous Teachers for
Large Language Models
- arxiv url: http://arxiv.org/abs/2402.09773v1
- Date: Thu, 15 Feb 2024 08:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:27:28.492235
- Title: NutePrune: Efficient Progressive Pruning with Numerous Teachers for
Large Language Models
- Title(参考訳): nuteprune: 大規模言語モデルのための多数の教師による効率的なプログレッシブプラニング
- Authors: Shengrui Li, Xueting Han, Jing Bai
- Abstract要約: 本研究では, 効率的なプログレッシブ・テラス・プルーニング法 (NutePrune) を提案する。
NutePruneは、1つの無傷モデルのみをロードし、さまざまなマスクやLoRAモジュールと統合することで、過剰なメモリコストを軽減する。
LLaMA-7B実験では、NutePruneはオリジナルのモデルの97.17%を20%の間隔で、95.07%を25%の間隔で維持している。
- 参考スコア(独自算出の注目度): 2.69499085779099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The considerable size of Large Language Models (LLMs) presents notable
deployment challenges, particularly on resource-constrained hardware.
Structured pruning, offers an effective means to compress LLMs, thereby
reducing storage costs and enhancing inference speed for more efficient
utilization. In this work, we study data-efficient and resource-efficient
structure pruning methods to obtain smaller yet still powerful models.
Knowledge Distillation is well-suited for pruning, as the intact model can
serve as an excellent teacher for pruned students. However, it becomes
challenging in the context of LLMs due to memory constraints. To address this,
we propose an efficient progressive Numerous-teacher pruning method
(NutePrune). NutePrune mitigates excessive memory costs by loading only one
intact model and integrating it with various masks and LoRA modules, enabling
it to seamlessly switch between teacher and student roles. This approach allows
us to leverage numerous teachers with varying capacities to progressively guide
the pruned model, enhancing overall performance. Extensive experiments across
various tasks demonstrate the effectiveness of NutePrune. In LLaMA-7B zero-shot
experiments, NutePrune retains 97.17% of the performance of the original model
at 20% sparsity and 95.07% at 25% sparsity.
- Abstract(参考訳): 大規模言語モデル(llm)のかなりのサイズは、特にリソース制約のあるハードウェアにおいて、注目すべきデプロイメント上の課題を示している。
構造化プルーニングは、LLMを圧縮し、ストレージコストを削減し、より効率的な利用のために推論速度を向上させる効果的な手段を提供する。
本研究では,データ効率と資源効率のよい構造プランニング手法について検討し,より小さく,かつ強力なモデルを得る。
知識蒸留は刈り取りに適しており、無傷モデルは刈り取り生徒の優れた教師として機能する。
しかし、メモリ制約のため、LLMの文脈では困難になる。
そこで本稿では, 効率的なプログレッシブなNumerous-Teacher pruning法(NutePrune)を提案する。
NutePruneは、1つの無傷モデルのみを読み込んで、さまざまなマスクとLoRAモジュールに統合することで、過剰なメモリコストを軽減し、教師と学生の役割をシームレスに切り替えることを可能にする。
このアプローチにより、様々な能力を持つ教師を活用でき、段階的にプルーニングモデルを指導し、全体的な性能を向上させることができる。
さまざまなタスクにわたる大規模な実験は、NutePruneの有効性を示している。
LLaMA-7Bゼロショット実験では、NutePruneはオリジナルのモデルの性能の97.17%を20%、95.07%を25%で維持している。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [58.40950424419147]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [59.74018108967818]
低ランク適応(LoRA)は、安価に微調整された大型事前訓練モデル(LPM)に現れている。
LoRAPruneは、メモリ効率のよい推論のための正確でコンパクトなモデルを提供する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - DisCo: Effective Knowledge Distillation For Contrastive Learning of
Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。
DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。
また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文 参考訳(メタデータ) (2021-12-10T16:11:23Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - DisCo: Remedy Self-supervised Learning on Lightweight Models with
Distilled Contrastive Learning [94.89221799550593]
SSL(Self-supervised representation Learning)はコミュニティから広く注目を集めている。
最近の研究では、モデルサイズが小さくなれば、その性能は低下すると主張している。
単純かつ効果的な蒸留コントラスト学習(DisCo)を提案し、問題を大きなマージンで緩和します。
論文 参考訳(メタデータ) (2021-04-19T08:22:52Z) - AttentionLite: Towards Efficient Self-Attention Models for Vision [9.957033392865982]
本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
論文 参考訳(メタデータ) (2020-12-21T17:54:09Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。