論文の概要: ProxSparse: Regularized Learning of Semi-Structured Sparsity Masks for Pretrained LLMs
- arxiv url: http://arxiv.org/abs/2502.00258v1
- Date: Sat, 01 Feb 2025 01:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:48.066418
- Title: ProxSparse: Regularized Learning of Semi-Structured Sparsity Masks for Pretrained LLMs
- Title(参考訳): ProxSparse: 事前学習用半構造化空間の正規化学習
- Authors: Hongyi Liu, Rajarshi Saha, Zhen Jia, Youngsuk Park, Jiaji Huang, Shoham Sabach, Yu-Xiang Wang, George Karypis,
- Abstract要約: ProxSparseは,正規化最適化によりマスク選択が可能な学習ベースのフレームワークである。
ProxSparseは従来提案していた半構造化マスク選択法より一貫して優れていた。
- 参考スコア(独自算出の注目度): 35.947829305609176
- License:
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in natural language processing tasks, yet their massive size makes serving them inefficient and costly. Semi-structured pruning has emerged as an effective method for model acceleration, but existing approaches are suboptimal because they focus on local, layer-wise optimizations using heuristic rules, failing to leverage global feedback. We present ProxSparse, a learning-based framework for mask selection enabled by regularized optimization. ProxSparse transforms the rigid, non-differentiable mask selection process into a smoother optimization procedure, allowing gradual mask exploration with flexibility. ProxSparse does not involve additional weight updates once the mask is determined. Our extensive evaluations on 7 widely used models show that ProxSparse consistently outperforms previously proposed semi-structured mask selection methods with significant improvement, demonstrating the effectiveness of our learned approach towards semi-structured pruning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理タスクにおいて例外的な性能を示してきたが、その巨大なサイズはそれらを非効率でコストがかかる。
半構造化プルーニングはモデル加速の有効な方法として登場したが、既存のアプローチは局所的な階層的な最適化に重きを置いており、大域的なフィードバックを活用できないため、最適ではない。
ProxSparseは,正規化最適化によりマスク選択が可能な学習ベースのフレームワークである。
ProxSparseは、厳密で微分不可能なマスク選択プロセスを、よりスムーズな最適化手順に変換することで、フレキシブルな段階的なマスク探索を可能にする。
ProxSparseはマスクが決定されると追加の重量更新を伴わない。
ProxSparseは従来提案していた半構造化マスク選択法よりも優れた性能を示し, 半構造化プルーニングに対する学習手法の有効性を実証した。
関連論文リスト
- Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - Breaking through Deterministic Barriers: Randomized Pruning Mask
Generation and Selection [29.375460634415806]
我々は大きなモデルを訓練し、その冗長なニューロンや重みを刈り取ることで除去する。
このアプローチはGLUEから8つのデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-19T22:32:51Z) - Learning Better Masking for Better Language Model Pre-training [80.31112722910787]
Masked Language Modelingは、事前学習言語モデル(PrLM)の目的を認知するために広く使われている。
PrLMは、固定マスキング比を適用し、トレーニング全体を通して異なる内容が同じ確率でマスクされるランダム-トークンマスキング戦略を採用するのが一般的である。
本研究では,異なるトレーニング段階におけるマスキング率とマスキング内容の調整を適応的に行う2つのマスク手法を提案する。
論文 参考訳(メタデータ) (2022-08-23T08:27:52Z) - Large Scale Mask Optimization Via Convolutional Fourier Neural Operator
and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。
機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文 参考訳(メタデータ) (2022-07-08T16:39:31Z) - Masking as an Efficient Alternative to Finetuning for Pretrained
Language Models [49.64561153284428]
我々は、微調整によって修正する代わりに、事前訓練された重量に対する選択的な二乗マスクを学習する。
内在的評価では、マスキング言語モデルによって計算された表現が、下流タスクの解決に必要な情報を符号化していることを示す。
論文 参考訳(メタデータ) (2020-04-26T15:03:47Z) - Semi-Autoregressive Training Improves Mask-Predict Decoding [119.8412758943192]
本研究では,マスク予測の半自己回帰動作を模倣した条件付きマスキング言語モデルSMARTを提案する。
SMARTでトレーニングされたモデルは、マスク予測デコードを使用すると高品質な変換を生成し、完全な自己回帰モデルで残りの性能ギャップを効果的に閉じる。
論文 参考訳(メタデータ) (2020-01-23T19:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。