論文の概要: Sample-aware Adaptive Structured Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.06184v1
- Date: Sat, 08 Mar 2025 12:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:17.982218
- Title: Sample-aware Adaptive Structured Pruning for Large Language Models
- Title(参考訳): 大規模言語モデルのためのサンプル認識型適応型構造化プルーニング
- Authors: Jun Kong, Xinge Ma, Jin Wang, Xuejie Zhang,
- Abstract要約: 本研究では,大規模言語モデル(LLM)のためのサンプル対応型構造化プルーニングフレームワークであるAdaPrunerを紹介する。
特に、AdaPrunerは構造化プルーニング解空間を構築して、LLMから冗長パラメータを効果的に除去する。
20%のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングモデルのパフォーマンスの97%を維持している。
- 参考スコア(独自算出の注目度): 14.605017410864583
- License:
- Abstract: Large language models (LLMs) have achieved outstanding performance in natural language processing, but enormous model sizes and high computational costs limit their practical deployment. Structured pruning can effectively reduce the resource demands for deployment by removing redundant model parameters. However, the randomly selected calibration data and fixed single importance estimation metrics in existing structured pruning methods lead to degraded performance of pruned models. This study introduces AdaPruner, a sample-aware adaptive structured pruning framework for LLMs, aiming to optimize the calibration data and importance estimation metrics in the structured pruning process. Specifically, AdaPruner effectively removes redundant parameters from LLMs by constructing a structured pruning solution space and then employing Bayesian optimization to adaptively search for the optimal calibration data and importance estimation metrics. Experimental results show that the AdaPruner outperforms existing structured pruning methods on a family of LLMs with varying pruning ratios, demonstrating its applicability and robustness. Remarkably, at a 20\% pruning ratio, the model pruned with AdaPruner maintains 97\% of the performance of the unpruned model.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理において優れた性能を達成しているが、膨大なモデルサイズと高い計算コストは実用的展開を制限している。
構造化プルーニングは、冗長なモデルパラメータを削除することで、デプロイのリソース要求を効果的に削減できる。
しかし, 既設プルーニング法では, ランダムに選択されたキャリブレーションデータと固定された単一重要度推定値により, プルーニングモデルの劣化性能が向上した。
本研究では,LLM用適応型構造化プルーニングフレームワークであるAdaPrunerを紹介し,構造化プルーニングプロセスにおけるキャリブレーションデータと重要度推定指標の最適化を目的とした。
具体的には、構造化プルーニング解空間を構築し、ベイズ最適化を用いて最適校正データと重要度推定指標を適応的に探索することにより、LLMから冗長パラメータを効果的に除去する。
実験結果から, AdaPruner は, LLM 群における既設プルーニング法よりも高い性能を示し, 適用性とロバスト性を示した。
注目すべきは、20 %のプルーニング比で、AdaPrunerでプルーニングされたモデルは、未プルーニングされたモデルのパフォーマンスの97 %を維持していることだ。
関連論文リスト
- OPTISHEAR: Towards Efficient and Adaptive Pruning of Large Language Models via Evolutionary Optimization [18.57876883968734]
適応型LLMプルーニングのための効率的な進化的最適化フレームワークである textbftextscOptiShear を紹介する。
我々のフレームワークは,メタプルーニングメトリック上に構築された効率的な検索空間と,迅速な評価のためのモデルワイド再構成誤差の2つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2025-02-15T09:17:38Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。
本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文 参考訳(メタデータ) (2024-11-21T12:02:39Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。
出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。
また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文 参考訳(メタデータ) (2024-07-26T23:53:59Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。