論文の概要: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- arxiv url: http://arxiv.org/abs/2402.05406v3
- Date: Tue, 15 Apr 2025 03:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:08:45.196376
- Title: Everybody Prune Now: Structured Pruning of LLMs with only Forward Passes
- Title(参考訳): LLMの構造的プルーニング(前向きパスのみ)
- Authors: Lucio Dery, Steven Kolawole, Jean-François Kagy, Virginia Smith, Graham Neubig, Ameet Talwalkar,
- Abstract要約: バックプロパゲーションの不要な勾配のない構造化プルーニング手法であるBonsaiを紹介する。
ボンサイは少ないリソースでより良い圧縮を実現するが、セミ構造化プルーニングによって生成されるモデルよりも2倍高速なモデルも生成する。
この結果から,バックプロップを必要条件として取り除くことで,最先端の効率性と性能が向上する可能性が示唆された。
- 参考スコア(独自算出の注目度): 68.86687117368247
- License:
- Abstract: Structured pruning is a promising approach to create smaller, faster LLMs. However, existing methods typically rely on backward passes, which can inflate memory requirements and compute costs. In this work we introduce Bonsai, a gradient-free structured pruning method that eliminates the need for backpropagation, significantly reducing memory requirements and compute costs while achieving state-of-the-art pruning performance. Bonsai uses forward-pass-only perturbative pruning to enable efficient compression of large models on a broader range of hardware configurations. Unlike existing structured pruning approaches, Bonsai not only achieves better compression with fewer resources, but also produces models that are twice as fast as those generated by semi-structured pruning. As a concrete demonstration, we use Bonsai to prune an 8B LLaMA-3 model to 50% sparsity on a single A6000 GPU -- a task infeasible with backprop-based methods, which require 2-3x memory. Our results show that removing backprop as a requirement not only enables pruning larger models on constrained hardware but can also lead to state-of-the-art efficiency and performance.
- Abstract(参考訳): 構造化プルーニング(Structured pruning)は、より小さく、より高速なLCMを作成するための有望なアプローチである。
しかし、既存のメソッドは一般的に後方パスに依存しており、メモリ要件と計算コストを増大させる可能性がある。
本研究では,バックプロパゲーションを不要にし,メモリ要求や計算コストを大幅に削減し,最先端のプルーニング性能を実現しつつ,勾配のない構造化プルーニング手法であるBonsaiを紹介する。
ボンサイはフォワードパスのみの摂動プルーニングを使用して、幅広いハードウェア構成で大規模モデルの効率的な圧縮を可能にする。
既存の構造化プルーニングアプローチとは異なり、Bonsaiは少ないリソースでより良い圧縮を達成するだけでなく、半構造化プルーニングによって生成されたモデルよりも2倍高速なモデルを生成する。
具体的なデモとして、Bonsaiを使って、1つのA6000 GPU上で8B LLaMA-3モデルを50%の間隔で実行します。
以上の結果から,バックプロップを不要にすることで,制約のあるハードウェア上でより大規模なモデルをプルーニングできるだけでなく,最先端の効率と性能を向上できる可能性が示唆された。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。