論文の概要: DarwinLM: Evolutionary Structured Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07780v2
- Date: Fri, 21 Feb 2025 14:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:53.888427
- Title: DarwinLM: Evolutionary Structured Pruning of Large Language Models
- Title(参考訳): DarwinLM: 大規模言語モデルの進化的構造化プルーニング
- Authors: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh,
- Abstract要約: 本研究では,シズナ (sysname) を提案する。
sysnameはShearedLlamaを上回り、圧縮後のトレーニング中にトレーニングデータを5ドル以下で提供する。
- 参考スコア(独自算出の注目度): 49.55509443720372
- License:
- Abstract: Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for \emph{non-uniform} model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose \sysname, a method for \emph{training-aware} structured pruning. \sysname builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, \sysname surpasses ShearedLlama while requiring $5\times$ less training data during post-compression training. Code is at: https://github.com/IST-DASLab/DarwinLM
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なNLPタスクで大きな成功を収めた。
しかし、その膨大な計算コストは、特にリアルタイムアプリケーションにおいて広く使われることを制限している。
構造化プルーニングは、ハードウェア環境に関係なく、モデルを圧縮し、エンドツーエンドのスピード改善を直接提供する、効果的なソリューションを提供する。
一方、モデルの異なるコンポーネントはプルーニングに対する様々な感度を示し、 'emph{non-uniform} モデルの圧縮を要求する。
しかし, 刈り取り法は, 有能な部分構造を識別するだけでなく, 圧縮後の訓練も考慮すべきである。
そこで本研究では,構造化プルーニングの方法である‘sysname’を提案する。
\sysnameは進化的な探索プロセスの上に構築され、突然変異によって各世代で複数の子孫モデルを生成し、生存のための適合性を選択する。
ポストトレーニングの効果を評価するため, 子孫集団に軽量な多段階学習プロセスを導入し, トークンの数を徐々に増加させ, 選択段階ごとに性能の悪いモデルを排除した。
我々は,Llama-2-7B,Llama-3.1-8B,Qwen-2.5-14B-Instructに関する広範囲な実験を行い,構造化プルーニングの最先端性能を実現する。
例えば、ShasysnameはShearedLlamaを上回り、圧縮後のトレーニング中に5ドル以下のトレーニングデータを必要とする。
コード https://github.com/IST-DASLab/DarwinLM
関連論文リスト
- MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。
我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文 参考訳(メタデータ) (2025-01-17T04:24:31Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Structured Pruning for Multi-Task Deep Neural Networks [25.916166808223743]
マルチタスクディープニューラルネットワーク(DNN)モデルは、個々のシングルタスクモデルよりも計算とストレージのメリットがある。
マルチタスクモデルにおける構造化プルーニングの有効性について検討する。
論文 参考訳(メタデータ) (2023-04-13T22:15:47Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - One-Cycle Pruning: Pruning ConvNets Under a Tight Training Budget [0.0]
ニューラルネットワークにおけるスパーシリティの導入は、パフォーマンスをほぼ無傷に保ちながら、その複雑さを軽減する効率的な方法である。
多くの場合、スパシティは3段階のパイプラインを使用して導入されます。1)モデルを収束させるためにトレーニングし、2)いくつかの基準に従ってモデルをプーンし、3)プルーニングされたモデルを微調整してパフォーマンスを回復します。
本研究では,パイプラインの最初のステップを廃止し,他の2ステップを1回のプルーニングトレーニングサイクルで組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-07-05T15:27:07Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。