Fugu-MT 論文翻訳(概要): CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information

論文の概要: CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information

arxiv url: http://arxiv.org/abs/2409.13199v2
Date: Tue, 10 Dec 2024 02:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.034716
Title: CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information
Title（参考訳）: CFSP: 粗い活性化情報を持つLCMのための効率的な構造化プルーニングフレームワーク
Authors: Yuxin Wang, Minghua Ma, Zekun Wang, Jingchang Chen, Huiming Fan, Liping Shan, Qing Yang, Dongliang Xu, Ming Liu, Bing Qin,
Abstract要約: CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
参考スコア（独自算出の注目度）: 33.01180010689081
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The colossal parameters and computational overhead of Large Language Models (LLMs) challenge their real-world applications. Network pruning, which targets unstructured or structured sparsity by removing redundant parameters, has recently been explored for LLM acceleration. Existing LLM pruning works focus on unstructured pruning, which typically requires special hardware support for a practical speed-up. In contrast, structured pruning can reduce latency on general devices. However, it remains a challenge to perform structured pruning efficiently and maintain performance, especially at high sparsity ratios. To this end, we introduce an efficient structured pruning framework named CFSP, which leverages both Coarse (interblock) and Fine-grained (intrablock) activation information as an importance criterion to guide pruning. The pruning is highly efficient, as it only requires one forward pass to compute feature activations. Specifically, we first allocate the sparsity budget across blocks based on their importance and then retain important weights within each block. In addition, we introduce a recovery fine-tuning strategy that adaptively allocates training overhead based on coarse-grained importance to further improve performance. Experimental results demonstrate that CFSP outperforms existing methods on diverse models across various sparsity budgets. Our code will be available at https://github.com/wyxscir/CFSP.
Abstract（参考訳）: LLM(Large Language Models)の余剰パラメータと計算オーバーヘッドは、現実のアプリケーションに挑戦する。冗長パラメータを除去して非構造的あるいは構造的疎結合を目標とするネットワークプルーニングは,最近,LLM加速のために検討されている。既存のLCMプルーニング作業は、非構造化プルーニングに重点を置いている。対照的に、構造化プルーニングは一般的なデバイスでのレイテンシを低減することができる。しかし、構造的刈り込みを効率的に行い、特に疎度比の高い性能を維持することは依然として課題である。この目的のために、我々は、粗い(インターブロック)ときめ細かい(イントラブロック)アクティベーション情報の両方をガイドプルーニングの重要基準として活用する、CFSPと呼ばれる効率的な構造化プルーニングフレームワークを導入する。プルーニングは、機能アクティベーションを計算するために1つのフォワードパスしか必要としないため、非常に効率的である。具体的には,まず,各ブロックの重み付けを重要度に基づいて,各ブロックに分散予算を割り当てる。さらに,粗い重要度に基づいてトレーニングのオーバーヘッドを適応的に配分し,さらなる性能向上を図るリカバリファインチューニング戦略を導入する。実験結果から, CFSPは, 多様なモデルにおいて, 様々な予算にまたがる既存手法よりも優れていることがわかった。私たちのコードはhttps://github.com/wyxscir/CFSP.comで公開されます。

関連論文リスト

C-SWAP: Explainability-Aware Structured Pruning for Efficient Neural Networks Compression [4.10373648742522]
プルーニング(英: Pruning)は、モデル構造におけるスパーシティを促進する技術である。本稿では,説明可能な深層学習に依存する新しい一発プルーニングフレームワークを提案する。提案手法はモデルサイズを大幅に削減し,性能への影響を最小限に抑え,微調整を不要とした。
論文参考訳（メタデータ） (2025-10-21T13:40:11Z)
SlimLLM: Accurate Structured Pruning for Large Language Models [36.84275777364218]
構造化プルーニングは,大規模言語モデルのパラメータを圧縮する有効な解法である。大規模言語モデルに対するSlimLLMという,効率的かつ高速な構造化プルーニング手法を提案する。
論文参考訳（メタデータ） (2025-05-28T03:01:28Z)
Pangu Light: Weight Re-Initialization for Pruning and Accelerating LLMs [79.7618807098457]
大きな言語モデル(LLM)は多くのタスクにまたがって最先端の機能を提供しますが、その巨大なサイズと推論コストは、実用的なデプロイメントに重大な計算上の課題をもたらします。本稿は,このような積極的関節切断を実現させる上で重要な,しばしば見落とされがちな側面として,残った重量の戦略的再初期化と調整があげられることを論じる。構造化プルーニングを中心としたLCM加速のためのフレームワークであるPangu Lightと、新しい重量再初期化技術を紹介する。
論文参考訳（メタデータ） (2025-05-26T15:57:08Z)
Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization [15.027017826182659]
T'yr-the-Prunerは、効率的なエンドツーエンド検索ベースのグローバルな構造解析フレームワークである。実効的な局所刈り取りと,スーパーネット構築を改善するための予測誤差蓄積手法を導入する。その結果、T'yr-the-Prunerは最先端の構造解析を達成し、高密度モデルの性能の97%を維持しながら、Llama-3.1-70Bのパラメータの50%を除去した。
論文参考訳（メタデータ） (2025-03-12T11:52:49Z)
FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。 FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文参考訳（メタデータ） (2025-01-16T09:38:39Z)
Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文参考訳（メタデータ） (2024-12-20T14:13:09Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
FALCON: FLOP-Aware Combinatorial Optimization for Neural Network Pruning [17.60353530072587]
ネットワークプルーニングは、性能を維持しながら、モデルサイズと計算コストを削減するソリューションを提供する。現在のプルーニング法のほとんどは、非ゼロパラメータの数を減らし、空間性を改善することに重点を置いている。本稿では,FALCONを提案する。FALCONは,モデル精度(忠実度),FLOP,スペーサ性制約を考慮に入れた,ネットワークプルーニングを最適化した新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T18:40:47Z)
Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文参考訳（メタデータ） (2023-12-19T09:23:48Z)
Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文参考訳（メタデータ） (2023-03-16T21:06:13Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Feature Flow Regularization: Improving Structured Sparsity in Deep Neural Networks [12.541769091896624]
プルーニングはディープニューラルネットワーク(DNN)の冗長パラメータを除去するモデル圧縮法である特徴フロー正則化(FFR)と呼ばれる特徴の進化という新たな視点から, 単純かつ効果的な正則化戦略を提案する。 VGGNets、CIFAR-10/100上のResNets、Tiny ImageNetデータセットによる実験では、FFRが非構造化と構造化の両方の空間性を大幅に改善できることが示されている。
論文参考訳（メタデータ） (2021-06-05T15:00:50Z)
Dynamic Probabilistic Pruning: A general framework for hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。 DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文参考訳（メタデータ） (2021-05-26T17:01:52Z)
Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文参考訳（メタデータ） (2020-06-22T10:57:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。