論文の概要: STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning
- arxiv url: http://arxiv.org/abs/2409.06211v1
- Date: Tue, 10 Sep 2024 04:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:00:01.289379
- Title: STUN: Structured-Then-Unstructured Pruning for Scalable MoE Pruning
- Title(参考訳): STUN: スケーラブルなMoEプルーニングのためのStructured-Then-Unstructured Pruning
- Authors: Jaeseong Lee, seung-won hwang, Aurick Qiao, Daniel F Campos, Zhewei Yao, Yuxiong He,
- Abstract要約: 推論コストを削減するため、Mixture-of-experts(MoEs)が採用されている。
この削減にもかかわらず、MoEsの膨大な数の専門家がサービスに費用を払っている。
我々は、$O(1)$複雑さを持つスケーラブルな代替案を提案するが、より高価な方法よりも優れている。
- 参考スコア(独自算出の注目度): 42.816836896057495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoEs) have been adopted for reducing inference costs by sparsely activating experts in Large language models (LLMs). Despite this reduction, the massive number of experts in MoEs still makes them expensive to serve. In this paper, we study how to address this, by pruning MoEs. Among pruning methodologies, unstructured pruning has been known to achieve the highest performance for a given pruning ratio, compared to structured pruning, since the latter imposes constraints on the sparsification structure. This is intuitive, as the solution space of unstructured pruning subsumes that of structured pruning. However, our counterintuitive finding reveals that expert pruning, a form of structured pruning, can actually precede unstructured pruning to outperform unstructured-only pruning. As existing expert pruning, requiring $O(\frac{k^n}{\sqrt{n}})$ forward passes for $n$ experts, cannot scale for recent MoEs, we propose a scalable alternative with $O(1)$ complexity, yet outperforming the more expensive methods. The key idea is leveraging a latent structure between experts, based on behavior similarity, such that the greedy decision of whether to prune closely captures the joint pruning effect. Ours is highly effective -- for Snowflake Arctic, a 480B-sized MoE with 128 experts, our method needs only one H100 and two hours to achieve nearly no loss in performance with 40% sparsity, even in generative tasks such as GSM8K, where state-of-the-art unstructured pruning fails to. The code will be made publicly available.
- Abstract(参考訳): Mixture-of-experts (MoEs) は、Large Language Model (LLMs) の専門家をわずかに活性化することで、推論コストを削減するために採用されている。
この削減にもかかわらず、MoEsの膨大な数の専門家がサービスに費用を払っている。
本稿では,MoEを刈り取ることにより,この問題に対処する方法について検討する。
刈り込み法のうち、非構造化プルーニングは、スペーシフィケーション構造に制約を課すため、構造化プルーニングに比べて、与えられたプルーニング比が最も高い性能を達成することが知られている。
これは直観的であり、非構造化プルーニングの解空間は構造化プルーニングの解空間を仮定する。
しかし,本研究では,非構造化プルーニングの形式である専門家プルーニングが,非構造化プルーニングに先立って非構造化プルーニングに先立って,非構造化プルーニングに先んじることを明らかにする。
既存のエキスパートプルーニングでは、$O(\frac{k^n}{\sqrt{n}})$ forward pass for $n$ experts, cannot scale for recent MoEs, we propose a scalable alternative with $O(1)$ complexity。
鍵となる考え方は、行動類似性に基づく専門家間の潜伏構造を活用することである。
専門家が128人いる480BサイズのMoEであるSnowflake Arcticでは、40パーセントの間隔でパフォーマンスを損なうのにH100と2時間しか必要ありません。
コードは公開されます。
関連論文リスト
- CFSP: An Efficient Structured Pruning Framework for LLMs with Coarse-to-Fine Activation Information [33.01180010689081]
CFSPと呼ばれる効率的な構造化プルーニングフレームワークを提案する。
まず、その重要度に基づいて各ブロックに分散予算を割り当て、その後、各ブロックに重要な重みを保持する。
その結果,CFSP は様々な予算にまたがる様々なモデルにおいて,既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-20T04:03:27Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Structurally Prune Anything: Any Architecture, Any Framework, Any Time [84.6210631783801]
ニューラルネットワークのための汎用的な構造化プルーニングフレームワークであるStructurely Prune Anything (SPA)を紹介した。
SPAは、トレーニング前、微調整後のトレーニング後、または微調整なしでのトレーニング後、いつでもプランニングをサポートする。
大規模な実験では、SPAは様々なアーキテクチャで最先端のプルーニング性能と競合することを示した。
論文 参考訳(メタデータ) (2024-03-03T13:49:49Z) - Structured Pruning for Deep Convolutional Neural Networks: A survey [2.811264250666485]
これにより、ストレージと計算コストを効果的に削減するため、ニューラルネットワークのプルーニングが関心を集めている。
本稿では, 深部CNNの構造化プルーニングに向けた最近の進展を概観する。
本稿では,フィルタランキング手法,正規化手法,動的実行,ニューラルネットワーク探索,抽選チケット仮説,プルーニングの応用について,最先端の構造化プルーニング手法を要約して比較する。
論文 参考訳(メタデータ) (2023-03-01T15:12:55Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - DSA: More Efficient Budgeted Pruning via Differentiable Sparsity
Allocation [19.786703872356174]
本稿では,効率的なエンドツーエンドのプルーニングフローであるSparsity Allocation (DSA)を提案する。
DSAは,現行の反復型刈り込み法よりも優れた性能を達成でき,その間に全刈り工程の時間コストを少なくとも1.5倍に短縮できることを示した。
論文 参考訳(メタデータ) (2020-04-05T11:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。