論文の概要: Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training
- arxiv url: http://arxiv.org/abs/2502.03460v1
- Date: Wed, 05 Feb 2025 18:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:16.990541
- Title: Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training
- Title(参考訳): Adapt-Pruner: 効率的な小言語モデル学習のための適応型構造解析
- Authors: Boyao Wang, Rui Pan, Shizhe Diao, Xingyuan Pan, Jipeng Zhang, Renjie Pi, Tong Zhang,
- Abstract要約: スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。
高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。
1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
- 参考スコア(独自算出の注目度): 27.857935426067076
- License:
- Abstract: Small language models (SLMs) have attracted considerable attention from both academia and industry due to their broad range of applications in edge devices. To obtain SLMs with strong performance, conventional approaches either pre-train the models from scratch, which incurs substantial computational costs, or compress/prune existing large language models (LLMs), which results in performance drops and falls short in comparison to pre-training. In this paper, we investigate the family of acceleration methods that involve both structured pruning and model training. We found 1) layer-wise adaptive pruning (Adapt-Pruner) is extremely effective in LLMs and yields significant improvements over existing pruning techniques, 2) adaptive pruning equipped with further training leads to models comparable to those pre-training from scratch, 3) incremental pruning brings non-trivial performance gain by interleaving pruning with training and only removing a small portion of neurons ($\sim$5%) at a time. Experimental results on LLaMA-3.1-8B demonstrate that Adapt-Pruner outperforms conventional pruning methods, such as LLM-Pruner, FLAP, and SliceGPT, by an average of 1%-7% in accuracy on commonsense benchmarks. Additionally, Adapt-Pruner restores the performance of MobileLLM-125M to 600M on the MMLU benchmark with 200$\times$ fewer tokens via pruning from its larger counterparts, and discovers a new 1B model that surpasses LLaMA-3.2-1B in multiple benchmarks.
- Abstract(参考訳): 小言語モデル(SLM)は、エッジデバイスにおける幅広い応用のために、学術と産業の両方から大きな注目を集めている。
高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。
本稿では,構造化プルーニングとモデルトレーニングの両方を含む加速度手法のファミリについて検討する。
発見
1) 層幅適応型プルーニング (Adapt-Pruner) はLLMにおいて極めて有効であり, 既存のプルーニング技術よりも大幅に改善されている。
2) 更なる訓練を施した適応型プルーニングは、スクラッチからの事前訓練に匹敵するモデルに導かれる。
3) インクリメンタルプルーニングは、トレーニングでプルーニングをインターリーブし、ニューロンのごく一部(\sim$5%)を一度に除去することで、非自明なパフォーマンス向上をもたらす。
LLaMA-3.1-8Bの実験結果から、Adapt-Pruner は LLM-Pruner, FLAP, SliceGPT などの従来のプルーニング手法よりも1%-7%の精度で性能を向上することが示された。
さらに、Adapt-Prunerは、MMLUベンチマークでMobileLLM-125Mを600Mに復元し、200$\times$少額のトークンをより大きなベンチマークからプルーニングすることで、新しい1Bモデルを発見し、複数のベンチマークでLLaMA-3.2-1Bを上回った。
関連論文リスト
- Towards Efficient Automatic Self-Pruning of Large Language Models [55.90119819642064]
トレーニング後の構造化プルーニングは、トレーニングを必要とせずに大規模言語モデルを熟成する有望なソリューションである。
この問題を緩和する鍵は、各レイヤのプルーニング率を正確に決定することにある、と我々は主張する。
我々は、レイヤワイドプルーニングレートを効率的に検索するLLMのためのエンドツーエンドの自動自動プルーニングフレームワークである$textbfSelf-Prunerを紹介した。
論文 参考訳(メタデータ) (2025-02-20T09:59:50Z) - EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。
本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。
我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文 参考訳(メタデータ) (2025-02-10T16:51:03Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Convex-optimization-based Layer-wise Post-training Pruner for Large Language Models [24.185245582500876]
本稿では,凸最適化モデルとアルゴリズムに基づく最初のポストトレーニングプルーナであるFISTAPrunerを紹介する。
FISTAPrunerは層内累積誤差補正機構を搭載し、並列プルーニングをサポートする。
OPT, LLaMA, LLaMA-2, LLaMA-3 などのモデルにおける FISTAPruner の評価を行った。
論文 参考訳(メタデータ) (2024-08-07T12:33:46Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。