論文の概要: ELDeR: Getting Efficient LLMs through Data-Driven Regularized Layer-wise Pruning
- arxiv url: http://arxiv.org/abs/2505.18232v1
- Date: Fri, 23 May 2025 12:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.243719
- Title: ELDeR: Getting Efficient LLMs through Data-Driven Regularized Layer-wise Pruning
- Title(参考訳): ELDeR: データ駆動型正規化層ワイドプルーニングによる効率的なLCMの実現
- Authors: Mingkuan Feng, Jinyang Wu, Siyuan Liu, Shuai Zhang, Hongjian Fang, Ruihan Jin, Feihu Che, Pengpeng Shao, Zhengqi Wen, Jianhua Tao,
- Abstract要約: 大規模言語モデル (LLM) は、刈り取りに使用可能な空間性を示す。
我々は新しいパラダイムを提案し、まず規則化、次にプルーを適用する。
ELDeRは, 強層構造プルーニング法に比べ, 優れた性能を示す。
- 参考スコア(独自算出の注目度): 31.602645422158126
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The deployment of Large language models (LLMs) in many fields is largely hindered by their high computational and memory costs. Recent studies suggest that LLMs exhibit sparsity, which can be used for pruning. Previous pruning methods typically follow a prune-then-finetune paradigm. Since the pruned parts still contain valuable information, statically removing them without updating the remaining parameters often results in irreversible performance degradation, requiring costly recovery fine-tuning (RFT) to maintain performance. To address this, we propose a novel paradigm: first apply regularization, then prune. Based on this paradigm, we propose ELDeR: Getting Efficient LLMs through Data-Driven Regularized Layer-wise Pruning. We multiply the output of each transformer layer by an initial weight, then we iteratively learn the weights of each transformer layer by using a small amount of data in a simple way. After that, we apply regularization to the difference between the output and input of the layers with smaller weights, forcing the information to be transferred to the remaining layers. Compared with direct pruning, ELDeR reduces the information loss caused by direct parameter removal, thus better preserving the model's language modeling ability. Experimental results show that ELDeR achieves superior performance compared with powerful layer-wise structured pruning methods, while greatly reducing RFT computational costs. Since ELDeR is a layer-wise pruning method, its end-to-end acceleration effect is obvious, making it a promising technique for efficient LLMs.
- Abstract(参考訳): 多くの分野におけるLarge Language Model (LLM) の展開は、その高い計算コストとメモリコストによって大きく妨げられている。
近年の研究では, LLMは, 刈り取りに使用可能な疎度を示すことが示唆されている。
従来のプルーニング法は、通常、プルー・テン・ファインチューンパラダイムに従っている。
刈り取られた部品には貴重な情報が含まれているため、残りのパラメータを更新せずに静的に取り除くと、性能を維持するのに高価な回復細調整(RFT)が必要になる。
そこで我々は,まず正規化,次にプルーンを適用するという,新しいパラダイムを提案する。
このパラダイムに基づいて,データ駆動型正規化層ワイドプルーニングによる効率的なLCMを得るELDeRを提案する。
初期重みで各トランス層の出力を乗算し,少量のデータを用いて各トランス層の重みを反復的に学習する。
その後、より小さな重みを持つレイヤの出力と入力の差に対して正規化を適用し、残りのレイヤに情報を転送せざるを得なくなる。
直接プルーニングと比較して、ELDeRは直接パラメータ除去による情報損失を低減し、モデルの言語モデリング能力を向上する。
実験結果から, ELDeR は, RFT 計算コストを大幅に削減しつつ, 強力な層構造プルーニング法に比べて優れた性能を発揮することが示された。
ELDeRは層状プルーニング法であるため, エンド・ツー・エンド加速効果は明らかであり, 効率的なLCMを実現する上で有望な技術である。
関連論文リスト
- DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。
本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。
プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文 参考訳(メタデータ) (2025-01-29T14:28:11Z) - Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。