論文の概要: CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information
- arxiv url: http://arxiv.org/abs/2409.13199v1
- Date: Fri, 20 Sep 2024 04:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:29:51.761497
- Title: CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information
- Title(参考訳): CFSP: 粗い活性化情報を持つLCMのための効率的な構造化プルーニングフレームワーク
- Authors: Yuxin Wang, Minghua Ma, Zekun Wang, Jingchang Chen, Huiming Fan, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin,
- Abstract要約: CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 33.01180010689081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The colossal parameters and computational overhead of Large Language Models (LLMs) challenge their real-world applications. Network pruning, which targets unstructured or structured sparsity by removing redundant parameters, has recently been explored for LLM acceleration. Existing LLM pruning works focus on unstructured pruning, which typically requires special hardware support for a practical speed-up. In contrast, structured pruning can reduce latency on general devices. However, it remains a challenge to perform structured pruning efficiently and maintain performance, especially at high sparsity ratios. To this end, we introduce an efficient structured pruning framework named CFSP, which leverages both Coarse (interblock) and Fine-grained (intrablock) activation information as an importance criterion to guide pruning. The pruning is highly efficient, as it only requires one forward pass to compute feature activations. Specifically, we first allocate the sparsity budget across blocks based on their importance and then retain important weights within each block. In addition, we introduce a recovery fine-tuning strategy that adaptively allocates training overhead based on coarse-grained importance to further improve performance. Experimental results demonstrate that CFSP outperforms existing methods on diverse models across various sparsity budgets. Our code will be available at https://github.com/wyxscir/CFSP.
- Abstract(参考訳): LLM(Large Language Models)の余剰パラメータと計算オーバーヘッドは、現実のアプリケーションに挑戦する。
冗長パラメータを除去して非構造的あるいは構造的疎結合を目標とするネットワークプルーニングは,最近,LLM加速のために検討されている。
既存のLCMプルーニング作業は、非構造化プルーニングに重点を置いている。
対照的に、構造化プルーニングは一般的なデバイスでのレイテンシを低減することができる。
しかし、構造的刈り込みを効率的に行い、特に疎度比の高い性能を維持することは依然として課題である。
この目的のために、我々は、粗い(インターブロック)ときめ細かい(イントラブロック)アクティベーション情報の両方をガイドプルーニングの重要基準として活用する、CFSPと呼ばれる効率的な構造化プルーニングフレームワークを導入する。
プルーニングは、機能アクティベーションを計算するために1つのフォワードパスしか必要としないため、非常に効率的である。
具体的には,まず,各ブロックの重み付けを重要度に基づいて,各ブロックに分散予算を割り当てる。
さらに,粗い重要度に基づいてトレーニングのオーバーヘッドを適応的に配分し,さらなる性能向上を図るリカバリファインチューニング戦略を導入する。
実験結果から, CFSPは, 多様なモデルにおいて, 様々な予算にまたがる既存手法よりも優れていることがわかった。
私たちのコードはhttps://github.com/wyxscir/CFSP.comで公開されます。
関連論文リスト
- FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。
その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文 参考訳(メタデータ) (2024-12-20T14:13:09Z) - Learning Coarse-to-Fine Pruning of Graph Convolutional Networks for Skeleton-based Recognition [5.656581242851759]
マグニチュード・プルーニング(Magnitude Pruning)は、最小の接続を除去する軽量なネットワーク設計手法である。
構造化および非構造化プルーニングの利点を収集する新しい粗粒化法(CTF)を考案する。
我々の手法は、各接続のマスクをアダマール積としてモデル化する新しいCTFパラメトリゼーションに依存している。
論文 参考訳(メタデータ) (2024-12-17T13:11:48Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。