論文の概要: MaskPrune: Mask-based LLM Pruning for Layer-wise Uniform Structures
- arxiv url: http://arxiv.org/abs/2502.14008v1
- Date: Wed, 19 Feb 2025 11:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:18.425412
- Title: MaskPrune: Mask-based LLM Pruning for Layer-wise Uniform Structures
- Title(参考訳): MaskPrune:レイヤワイド均一構造のためのマスクベースLCMプルーニング
- Authors: Jiayu Qin, Jianchao Tan, Kefeng Zhang, Xunliang Cai, Wei Wang,
- Abstract要約: 本稿では,ミニマックス最適化に基づく新しいマスキング学習パラダイムを提案する。
本手法は, プレナードモデル構造の均一性を確保しつつ高い性能を維持することができ, 既存のSOTA法よりも優れる。
- 参考スコア(独自算出の注目度): 11.670001973212784
- License:
- Abstract: The remarkable performance of large language models (LLMs) in various language tasks has attracted considerable attention. However, the ever-increasing size of these models presents growing challenges for deployment and inference. Structured pruning, an effective model compression technique, is gaining increasing attention due to its ability to enhance inference efficiency. Nevertheless, most previous optimization-based structured pruning methods sacrifice the uniform structure across layers for greater flexibility to maintain performance. The heterogeneous structure hinders the effective utilization of off-the-shelf inference acceleration techniques and impedes efficient configuration for continued training. To address this issue, we propose a novel masking learning paradigm based on minimax optimization to obtain the uniform pruned structure by optimizing the masks under sparsity regularization. Extensive experimental results demonstrate that our method can maintain high performance while ensuring the uniformity of the pruned model structure, thereby outperforming existing SOTA methods.
- Abstract(参考訳): 様々な言語タスクにおける大規模言語モデル(LLM)の顕著な性能は注目されている。
しかしながら、これらのモデルのサイズは拡大し続けており、デプロイメントと推論の難しさが増している。
効率的なモデル圧縮技術である構造化プルーニングは、推論効率を高める能力によって注目を集めている。
それにもかかわらず、従来の最適化に基づく構造化プルーニング手法は、性能を維持するための柔軟性を高めるため、層全体の均一な構造を犠牲にしている。
不均一構造は、オフザシェルフ推論加速技術の有効利用を妨げるとともに、継続的なトレーニングのための効率的な構成を阻害する。
この問題に対処するために,極小最適化に基づく新しいマスキング学習パラダイムを提案する。
大規模な実験結果から,本手法はプルーニングモデル構造の均一性を確保しつつ高い性能を維持することが可能であり,既存のSOTA法よりも優れた性能を示す。
関連論文リスト
- Cliqueformer: Model-Based Optimization with Structured Transformers [102.55764949282906]
大規模なニューラルネットワークは予測タスクに優れるが、タンパク質工学や材料発見といった設計問題への応用には、オフラインモデルベース最適化(MBO)の問題を解決する必要がある。
機能的グラフィカルモデル(FGM)を用いてブラックボックス関数の構造を学習するトランスフォーマーベースのアーキテクチャであるCliqueformerを提案する。
化学および遺伝子設計タスクを含む様々な領域において、Cliqueformerは既存の方法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-17T00:35:47Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks [5.536630285985836]
パラメータ効率のスペシャリティクラフト (PESC) を導入する。
PESCは、Mix-of-experts (MoE)アーキテクチャを使って、密集したモデルをスパースモデルに加工する。
我々の最良スパースモデルは他のスパースモデルよりも優れ、GP3.5に比べて優れた一般性を示す。
論文 参考訳(メタデータ) (2024-01-05T09:58:09Z) - Coupling Fairness and Pruning in a Single Run: a Bi-level Optimization
Perspective [17.394732703591462]
本研究では, プルーニングマスクと重み更新処理を公平性制約で協調的に最適化する枠組みを提案する。
このフレームワークは、単一実行時の公平性を確保しながら、パフォーマンスを維持するモデルを圧縮するように設計されている。
我々の経験的分析は、我々のフレームワークといくつかの主流プルーニング戦略を対比し、モデルフェアネス、パフォーマンス、効率の維持における我々の方法の優位性を強調している。
論文 参考訳(メタデータ) (2023-12-15T20:08:53Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Training Recipe for N:M Structured Sparsity with Decaying Pruning Mask [8.02992650002693]
モデル精度と計算コストのトレードオフの観点から,N:M空間の様々なトレーニングレシピについて検討し,評価を行った。
我々は,2つの新しい崩壊に基づくプルーニング法,すなわち「プルーニングマスク崩壊」と「スパース構造崩壊」を提案する。
評価の結果,提案手法は非構造空間に匹敵する精度のSOTA(State-of-the-art)モデルを実現することがわかった。
論文 参考訳(メタデータ) (2022-09-15T21:30:55Z) - Large Scale Mask Optimization Via Convolutional Fourier Neural Operator
and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。
機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文 参考訳(メタデータ) (2022-07-08T16:39:31Z) - Adversarial Self-Attention for Language Understanding [89.265747130584]
本稿では,textitAdversarial Self-Attention Mechanism (ASA)を提案する。
ASAはトランスフォーマーの注意を逆向きに再構築し、汚染されたモデル構造からのモデルトレーニングを促進する。
微調整の場合、ASAを動力とするモデルは、一般化とロバスト性の両方を考慮すると、単純モデルよりも常に大きなマージンで勝る。
論文 参考訳(メタデータ) (2022-06-25T09:18:10Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。