Fugu-MT 論文翻訳(概要): Two-Stage Regularization-Based Structured Pruning for LLMs

論文の概要: Two-Stage Regularization-Based Structured Pruning for LLMs

arxiv url: http://arxiv.org/abs/2505.18232v2
Date: Tue, 01 Jul 2025 03:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-02 15:54:40.091219
Title: Two-Stage Regularization-Based Structured Pruning for LLMs
Title（参考訳）: LLM用2段階規則化型構造化プルーニング
Authors: Mingkuan Feng, Jinyang Wu, Siyuan Liu, Shuai Zhang, Ruihan Jin, Feihu Che, Pengpeng Shao, Zhengqi Wen, Jianhua Tao,
Abstract要約: TRSP: 大規模言語モデルのための2段階規則化に基づく構造化プルーニング。 TRSPは, 再学習を必要とせず, 強い階層構造を有するプルーニング法よりも優れた性能を示すことを示す。層ワイドプルーニング法として、注目すべきエンドツーエンドアクセラレーションを提供する。
参考スコア（独自算出の注目度）: 32.65416603453818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The deployment of large language models (LLMs) is largely hindered by their large number of parameters. Structural pruning has emerged as a promising solution. Prior structured pruning methods directly remove unimportant parameters based on certain metrics, which often causes knowledge loss and necessitates extensive retraining. To overcome this, we introduce a novel pruning method TRSP: Two-Stage Regularization-Based Structured Pruning for LLMs. Specifically, we multiply the output of each transformer layer by an initial learnable weight and iteratively learn these weights by adding their $\ell_1$-norm as a regularization term to the loss function, serving as the first-stage regularization. Subsequently, we apply additional regularization to the difference between the output and input of layers with smaller weights, encouraging the shift of knowledge to the preserved layers. This serves as the second-stage regularization. TRSP retains more knowledge and better preserves model performance than direct parameter elimination. Through extensive experimentation we show that TRSP outperforms strong layer-wise structured pruning methods without requiring retraining. As a layer-wise pruning method, it delivers notable end-to-end acceleration, making it a promising solution for efficient LLM deployment.
Abstract（参考訳）: 大規模言語モデル(LLM)の展開は、多くのパラメータによって大きく妨げられている。構造的な刈り取りは有望な解決策として現れている。事前の構造化プルーニング手法は、特定の指標に基づいて重要でないパラメータを直接除去する。そこで本研究では,LLMの2段階規則化に基づく構造的プルーニングという,新しいプルーニング手法を提案する。具体的には、各トランス層の出力を初期学習可能な重みで乗算し、それらの$\ell_1$-normを損失関数の正規化項として付加し、その重みを反復的に学習する。その後、より小さな重みを持つレイヤの出力と入力の差にさらなる正規化を適用し、保存されたレイヤへの知識のシフトを促す。これは第2段階の正規化として機能する。 TRSPは、直接パラメータ除去よりも多くの知識を保持し、モデル性能を保存している。広範な実験により、TRSPは、再訓練を必要とせず、強い階層構造を有するプルーニング法よりも優れた性能を示すことを示す。レイヤワイドプルーニング法として、注目すべきエンドツーエンドのアクセラレーションを提供し、効率的なLCMデプロイメントのための有望なソリューションとなる。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
DReSS: Data-driven Regularized Structured Streamlining for Large Language Models [30.47317140878219]
大規模言語モデル(LLM)は、様々な領域で大きな進歩を遂げているが、その規模が大きくなると高い計算とメモリコストがもたらされる。本稿では,まず正規化,次にプーン,そして最後に微細構造を適用する新しいパラダイムを提案する。プルーニングされるコンポーネントを正規化するために少量のデータを活用することで、DReSSは、重要な情報をモデルの残りの部分に前もって明示的に転送する。
論文参考訳（メタデータ） (2025-01-29T14:28:11Z)
Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-11-23T13:31:16Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文参考訳（メタデータ） (2024-07-26T23:53:59Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文参考訳（メタデータ） (2023-12-19T09:23:48Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。