論文の概要: DarwinLM: Evolutionary Structured Pruning of Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07780v3
- Date: Wed, 05 Mar 2025 09:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:40.4782
- Title: DarwinLM: Evolutionary Structured Pruning of Large Language Models
- Title(参考訳): DarwinLM: 大規模言語モデルの進化的構造化プルーニング
- Authors: Shengkun Tang, Oliver Sieberling, Eldar Kurtic, Zhiqiang Shen, Dan Alistarh,
- Abstract要約: 大規模言語モデル(LLM)は様々なNLPタスクで大きな成功を収めた。
構造化プルーニングは、モデルを圧縮し、エンドツーエンドのスピード改善を直接提供する、効果的なソリューションを提供する。
本研究では,構造化プルーニングの訓練手法であるDarwinLMを提案する。
- 参考スコア(独自算出の注目度): 49.55509443720372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved significant success across various NLP tasks. However, their massive computational costs limit their widespread use, particularly in real-time applications. Structured pruning offers an effective solution by compressing models and directly providing end-to-end speed improvements, regardless of the hardware environment. Meanwhile, different components of the model exhibit varying sensitivities towards pruning, calling for non-uniform model compression. However, a pruning method should not only identify a capable substructure, but also account for post-compression training. To this end, we propose DarwinLM, a method for training-aware structured pruning. DarwinLM builds upon an evolutionary search process, generating multiple offspring models in each generation through mutation, and selecting the fittest for survival. To assess the effect of post-training, we incorporate a lightweight, multistep training process within the offspring population, progressively increasing the number of tokens and eliminating poorly performing models in each selection stage. We validate our method through extensive experiments on Llama-2-7B, Llama-3.1-8B and Qwen-2.5-14B-Instruct, achieving state-of-the-art performance for structured pruning. For instance, DarwinLM surpasses ShearedLlama while requiring 5x less training data during post-compression training. Code is at: https://github.com/IST-DASLab/DarwinLM
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なNLPタスクで大きな成功を収めた。
しかし、その膨大な計算コストは、特にリアルタイムアプリケーションにおいて広く使われることを制限している。
構造化プルーニングは、ハードウェア環境に関係なく、モデルを圧縮し、エンドツーエンドのスピード改善を直接提供する、効果的なソリューションを提供する。
一方、モデルの異なるコンポーネントは、一様でないモデル圧縮を要求するプルーニングに対する様々な感度を示す。
しかし, 刈り取り法は, 有能な部分構造を識別するだけでなく, 圧縮後の訓練も考慮すべきである。
そこで本研究では,構造化プルーニングの訓練手法であるDarwinLMを提案する。
DarwinLMは進化的探索プロセスの上に構築され、突然変異によって各世代で複数の子孫モデルを生成し、生存に適したモデルを選択する。
ポストトレーニングの効果を評価するため, 子孫集団に軽量な多段階学習プロセスを導入し, トークンの数を徐々に増加させ, 選択段階ごとに性能の悪いモデルを排除した。
我々は,Llama-2-7B,Llama-3.1-8B,Qwen-2.5-14B-Instructに関する広範囲な実験を行い,構造化プルーニングの最先端性能を実現する。
例えば、DarwinLMは、圧縮後のトレーニング中に5倍のトレーニングデータを必要としながら、ShearedLlamaを上回っている。
コード https://github.com/IST-DASLab/DarwinLM
関連論文リスト
- EvoP: Robust LLM Inference via Evolutionary Pruning [18.365063663212126]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。
既存の構造化プルーニング手法は、モデルから冗長な構造を取り除き、この問題に対処する。
頑健なLLM推論のための進化的プルーニングフレームワークであるEvoPを提案する。
論文 参考訳(メタデータ) (2025-02-19T06:33:59Z) - MultiPruner: Balanced Structure Removal in Foundation Models [1.8434042562191815]
近年,大規模な事前学習モデル (LPM) を刈り取るための最先端手法として,トランスフォーマーにおける非臨界残留ブロックの非臨界除去がモデルサイズ削減に有効であることを実証している。
我々はBlockPrunerを拡張し、MultiPrunerを提案する。
論文 参考訳(メタデータ) (2025-01-17T04:24:31Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - FREE: Faster and Better Data-Free Meta-Learning [77.90126669914324]
Data-Free Meta-Learning (DFML) は、トレーニング済みモデルのコレクションから、元のデータを必要としない知識を抽出することを目的としている。
i)事前訓練されたモデルからトレーニングタスクを迅速に回復するためのメタジェネレータ,(ii)新しい未知のタスクに一般化するためのメタラーナーを含む、より高速で優れたデータフリーなメタラーニングフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-02T03:43:19Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Structured Pruning for Multi-Task Deep Neural Networks [25.916166808223743]
マルチタスクディープニューラルネットワーク(DNN)モデルは、個々のシングルタスクモデルよりも計算とストレージのメリットがある。
マルチタスクモデルにおける構造化プルーニングの有効性について検討する。
論文 参考訳(メタデータ) (2023-04-13T22:15:47Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Learning to Generate Levels by Imitating Evolution [7.110423254122942]
機械学習を用いた新しいタイプの反復レベルジェネレータを提案する。
進化過程を模倣するためにモデルをトレーニングし、モデルを使用してレベルを生成します。
このトレーニングされたモデルは、フィットネス機能を必要とせずに、ノイズレベルを逐次修正して、より良いレベルを作ることができる。
論文 参考訳(メタデータ) (2022-06-11T10:44:57Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。