論文の概要: MaskPrune: Mask-based LLM Pruning for Layer-wise Uniform Structures
- arxiv url: http://arxiv.org/abs/2502.14008v1
- Date: Wed, 19 Feb 2025 11:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:18.425412
- Title: MaskPrune: Mask-based LLM Pruning for Layer-wise Uniform Structures
- Title(参考訳): MaskPrune:レイヤワイド均一構造のためのマスクベースLCMプルーニング
- Authors: Jiayu Qin, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Wei Wang,
- Abstract要約: 本稿では,ミニマックス最適化に基づく新しいマスキング学習パラダイムを提案する。
本手法は, プレナードモデル構造の均一性を確保しつつ高い性能を維持することができ, 既存のSOTA法よりも優れる。
- 参考スコア(独自算出の注目度): 11.670001973212784
- License:
- Abstract: The remarkable performance of large language models (LLMs) in various language tasks has attracted considerable attention. However, the ever-increasing size of these models presents growing challenges for deployment and inference. Structured pruning, an effective model compression technique, is gaining increasing attention due to its ability to enhance inference efficiency. Nevertheless, most previous optimization-based structured pruning methods sacrifice the uniform structure across layers for greater flexibility to maintain performance. The heterogeneous structure hinders the effective utilization of off-the-shelf inference acceleration techniques and impedes efficient configuration for continued training. To address this issue, we propose a novel masking learning paradigm based on minimax optimization to obtain the uniform pruned structure by optimizing the masks under sparsity regularization. Extensive experimental results demonstrate that our method can maintain high performance while ensuring the uniformity of the pruned model structure, thereby outperforming existing SOTA methods.
- Abstract(参考訳): 様々な言語タスクにおける大規模言語モデル(LLM)の顕著な性能は注目されている。
しかしながら、これらのモデルのサイズは拡大し続けており、デプロイメントと推論の難しさが増している。
効率的なモデル圧縮技術である構造化プルーニングは、推論効率を高める能力によって注目を集めている。
それにもかかわらず、従来の最適化に基づく構造化プルーニング手法は、性能を維持するための柔軟性を高めるため、層全体の均一な構造を犠牲にしている。
不均一構造は、オフザシェルフ推論加速技術の有効利用を妨げるとともに、継続的なトレーニングのための効率的な構成を阻害する。
この問題に対処するために,極小最適化に基づく新しいマスキング学習パラダイムを提案する。
大規模な実験結果から,本手法はプルーニングモデル構造の均一性を確保しつつ高い性能を維持することが可能であり,既存のSOTA法よりも優れた性能を示す。
関連論文リスト
- ProxSparse: Regularized Learning of Semi-Structured Sparsity Masks for Pretrained LLMs [35.947829305609176]
ProxSparseは,正規化最適化によりマスク選択が可能な学習ベースのフレームワークである。
ProxSparseは従来提案していた半構造化マスク選択法より一貫して優れていた。
論文 参考訳(メタデータ) (2025-02-01T01:35:23Z) - FASP: Fast and Accurate Structured Pruning of Large Language Models [24.185245582500876]
FASP(Fast and Accurate Structured Pruning)は,大規模言語モデル(LLM)のための新しい構造化プルーニングフレームワークである。
FASPはシーケンシャルなレイヤを相互にリンクする独自のプルーニング構造を採用しており、同時に前のレイヤで対応する行を削除しながら、追加のパフォーマンス損失を発生させることなく、ひとつのレイヤで列を削除できる。
我々は,OPTおよびLLaMAモデルファミリー上でのFASPを評価し,最先端の手法と比較して,下流タスクの難易度と精度において優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T09:38:39Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
大規模なニューラルネットワークは予測タスクに優れるが、タンパク質工学や材料発見といった設計問題への応用には、オフラインモデルベース最適化(MBO)の問題を解決する必要がある。
機能的グラフィカルモデル(FGM)を用いてブラックボックス関数の構造を学習するトランスフォーマーベースのアーキテクチャであるCliqueformerを提案する。
化学および遺伝子設計タスクを含む様々な領域において、Cliqueformerは既存の方法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-17T00:35:47Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Training Recipe for N:M Structured Sparsity with Decaying Pruning Mask [8.02992650002693]
モデル精度と計算コストのトレードオフの観点から,N:M空間の様々なトレーニングレシピについて検討し,評価を行った。
我々は,2つの新しい崩壊に基づくプルーニング法,すなわち「プルーニングマスク崩壊」と「スパース構造崩壊」を提案する。
評価の結果,提案手法は非構造空間に匹敵する精度のSOTA(State-of-the-art)モデルを実現することがわかった。
論文 参考訳(メタデータ) (2022-09-15T21:30:55Z) - Large Scale Mask Optimization Via Convolutional Fourier Neural Operator
and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。
機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文 参考訳(メタデータ) (2022-07-08T16:39:31Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。