論文の概要: Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient
- arxiv url: http://arxiv.org/abs/2406.10576v2
- Date: Mon, 21 Oct 2024 13:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:15:15.380035
- Title: Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient
- Title(参考訳): Bypassのバックプロパゲーション:ポリシーグラディエントによる大規模言語モデルの最適化に基づく構造解析
- Authors: Yuan Gao, Zujing Liu, Weizhong Zhang, Bo Du, Gui-Song Xia,
- Abstract要約: 大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
- 参考スコア(独自算出の注目度): 57.9629676017527
- License:
- Abstract: In contrast to moderate-size neural network pruning, structural weight pruning on the Large-Language Models (LLMs) imposes a novel challenge on the efficiency of the pruning algorithms, due to the heavy computation/memory demands of the LLMs. Recent efficient LLM pruning methods typically operate at the post-training phase without the expensive weight finetuning, however, their pruning criteria often rely on heuristically hand-crafted metrics, potentially leading to suboptimal performance. We instead propose a novel optimization-based structural pruning that learns the pruning masks in a probabilistic space directly by optimizing the loss of the pruned model. To preserve the efficiency, our method eliminates the back-propagation through the LLM per se during the optimization, requiring only the forward pass of the LLM. We achieve this by learning an underlying Bernoulli distribution to sample binary pruning masks, where we decouple the Bernoulli parameters from the LLM loss, thus facilitating an efficient optimization via a policy gradient estimator without back-propagation. As a result, our method is able to 1) operate at structural granularities of channels, heads, and layers, 2) support global and heterogeneous pruning (i.e., our method automatically determines different redundancy for different layers), and 3) optionally initialize with a metric-based method (for our Bernoulli distributions). Extensive experiments on LLaMA, LLaMA-2, LLaMA-3, Vicuna, and Mistral using the C4 and WikiText2 datasets demonstrate that our method operates for 2.7 hours with around 35GB memory for the 13B models on a single A100 GPU, and our pruned models outperform the state-of-the-arts w.r.t. both perplexity and the majority of various zero-shot tasks. Codes will be released.
- Abstract(参考訳): 中規模のニューラルネットワークプルーニングとは対照的に、LLM(Large-Language Models)の構造的な重み付けは、LLMの重い計算/メモリ要求のため、プルーニングアルゴリズムの効率に新たな課題を課している。
近年のLLMプルーニング法は、高額な重量微調整を伴わずに訓練後の段階で運用されているが、そのプルーニング基準は、しばしばヒューリスティックな手作りの指標に依存しており、最適以下の性能をもたらす可能性がある。
そこで本研究では, 確率空間におけるプルーニングマスクを直接学習し, プルーニングモデルの損失を最適化することで, 新たな最適化に基づく構造的プルーニングを提案する。
この効率を維持するため,本手法では,LLMの前方通過のみを必要とせず,最適化中のLLMによるバックプロパゲーションを除去する。
本研究では,Bernolli分布の基底を二値分岐マスクのサンプルとして学習し,LLM損失からBernolliパラメータを分離することにより,バックプロパゲーションのないポリシ勾配推定器による効率的な最適化を実現する。
その結果、我々の方法では、
1)チャネル,ヘッド,レイヤの構造的な粒度で動作する。
2)グローバルおよびヘテロジニアスプルーニング(すなわち,各レイヤの異なる冗長性を自動的に決定する手法)をサポートし,
3) 任意にメートル法(ベルヌーイ分布)で初期化する。
C4およびWikiText2データセットを用いたLLaMA,LLaMA-2,LLaMA-3,Vicuna,Mistralの大規模な実験により,1つのA100 GPU上の13Bモデルに対して,約35GBのメモリで2.7時間動作し,解析されたモデルでは,さまざまなゼロショットタスクの難易度と難易度の両方に優れることがわかった。
コードはリリースされる。
関連論文リスト
- Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。
本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。
LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文 参考訳(メタデータ) (2024-05-27T14:49:39Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Characterizing the Accuracy - Efficiency Trade-off of Low-rank Decomposition in Language Models [1.530997923234786]
大規模言語モデル(LLM)が登場し、1つのモデルでそれらの一般的な問題解決能力を示した。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
その結果,9%のモデルサイズ削減を最小限の精度で達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。