Fugu-MT 論文翻訳(概要): Optimization-based Structural Pruning for Large Language Models without Back-Propagation

論文の概要: Optimization-based Structural Pruning for Large Language Models without Back-Propagation

arxiv url: http://arxiv.org/abs/2406.10576v1
Date: Sat, 15 Jun 2024 09:31:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 23:43:29.552598
Title: Optimization-based Structural Pruning for Large Language Models without Back-Propagation
Title（参考訳）: バックプロパゲーションのない大規模言語モデルの最適化に基づく構造解析
Authors: Yuan Gao, Zujing Liu, Weizhong Zhang, Bo Du, Gui-Song Xia,
Abstract要約: 本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
参考スコア（独自算出の注目度）: 57.9629676017527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compared to the moderate size of neural network models, structural weight pruning on the Large-Language Models (LLMs) imposes a novel challenge on the efficiency of the pruning algorithms, due to the heavy computation/memory demands of the LLMs. Recent efficient LLM pruning methods typically operate at the post-training phase without the expensive weight finetuning, however, their pruning criteria often rely on heuristically designed metrics, potentially leading to suboptimal performance. We instead propose a novel optimization-based structural pruning that learns the pruning masks in a probabilistic space directly by optimizing the loss of the pruned model. To preserve the efficiency, our method 1) works at post-training phase} and 2) eliminates the back-propagation through the LLM per se during the optimization (i.e., only requires the forward pass of the LLM). We achieve this by learning an underlying Bernoulli distribution to sample binary pruning masks, where we decouple the Bernoulli parameters from the LLM loss, thus facilitating an efficient optimization via a policy gradient estimator without back-propagation. As a result, our method is able to 1) operate at structural granularities of channels, heads, and layers, 2) support global and heterogeneous pruning (i.e., our method automatically determines different redundancy for different layers), and 3) optionally use a metric-based method as initialization (of our Bernoulli distributions). Extensive experiments on LLaMA, LLaMA-2, and Vicuna using the C4 and WikiText2 datasets demonstrate that our method operates for 2.7 hours with around 35GB memory for the 13B models on a single A100 GPU, and our pruned models outperform the state-of-the-arts w.r.t. perplexity. Codes will be released.
Abstract（参考訳）: ニューラルネットワークモデルの適度なサイズと比較して、LLM(Large-Language Models)の構造的プルーニングは、LLMの重い計算/メモリ要求のため、プルーニングアルゴリズムの効率に新たな課題を課している。近年の効率的なLCMプルーニング法は、高価な重量微調整を伴わずに訓練後の段階で動作しているが、そのプルーニング基準は、しばしばヒューリスティックに設計されたメトリクスに依存しており、最適以下の性能をもたらす可能性がある。そこで本研究では, 確率空間におけるプルーニングマスクを直接学習し, プルーニングモデルの損失を最適化することで, 新たな最適化に基づく構造的プルーニングを提案する。効率を維持するため、我々の方法 1)ポストトレーニングフェーズで作業し、 2) 最適化中(すなわち、LLMの前方通過のみ)にLLMを経由するバックプロパゲーションを除去する。本研究では,Bernolli分布の基底を二値分岐マスクのサンプルとして学習し,LLM損失からBernolliパラメータを分離することにより,バックプロパゲーションのないポリシ勾配推定器による効率的な最適化を実現する。その結果、我々の方法では、 1)チャネル,ヘッド,レイヤの構造的な粒度で動作する。 2)グローバルおよびヘテロジニアスプルーニング(すなわち,各レイヤの異なる冗長性を自動的に決定する手法)をサポートし, 3) 任意に(ベルヌーイ分布の)初期化としてメートル法を用いる。 C4およびWikiText2データセットを用いたLLaMA,LLaMA-2,Vicunaの大規模な実験により,1つのA100 GPU上での13Bモデルに対して,約35GBのメモリで2.7時間動作し,解析結果が得られた。コードはリリースされる。

関連論文リスト

Boosting Parameter Efficiency in LLM-Based Recommendation through Sophisticated Pruning [44.747749293948864]
この研究は、レコメンデーション品質を維持しながら効率を向上させるために刈り取りを探求する。層内および層内プルーニングの両方を統合したよりきめ細かいプルーニング手法を提案する。提案手法は,非埋め込みパラメータの95%以上を刈り取りながら,元のモデルの性能の88%を平均的に達成する。
論文参考訳（メタデータ） (2025-07-09T17:26:10Z)
SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-06-10T02:24:32Z)
SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文参考訳（メタデータ） (2025-05-06T09:47:53Z)
OPTISHEAR: Towards Efficient and Adaptive Pruning of Large Language Models via Evolutionary Optimization [18.57876883968734]
適応型LLMプルーニングのための効率的な進化的最適化フレームワークである textbftextscOptiShear を紹介する。我々のフレームワークは,メタプルーニングメトリック上に構築された効率的な検索空間と,迅速な評価のためのモデルワイド再構成誤差の2つの重要なイノベーションを特徴としている。
論文参考訳（メタデータ） (2025-02-15T09:17:38Z)
Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2024-10-21T01:23:34Z)
AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文参考訳（メタデータ） (2024-10-14T03:35:11Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。 FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。 OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文参考訳（メタデータ） (2024-08-07T12:33:46Z)
ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。 OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文参考訳（メタデータ） (2024-06-12T02:57:41Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文参考訳（メタデータ） (2024-05-25T04:55:27Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法であるワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文参考訳（メタデータ） (2022-10-08T19:19:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。