論文の概要: MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE
- arxiv url: http://arxiv.org/abs/2507.00390v1
- Date: Tue, 01 Jul 2025 03:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.245362
- Title: MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE
- Title(参考訳): MoNE:MoEの構造解析のための軽量ノウハウを用いた冗長エキスパートのリプレース
- Authors: Geng Zhang, Yuxuan Han, Yuxuan Lou, Wangbo Zhao, Yiqi Zhang, Yang You,
- Abstract要約: Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
- 参考スコア(独自算出の注目度): 12.498106165046233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) enables efficient scaling of large language models by activating only a subset of experts per input token. However, deploying MoE-based models incurs significant memory overhead due to the need to retain all experts in memory. While structured pruning is promising to reduce memory costs, existing methods often show suboptimal performance and unstable degradation in three dimensions: model architectures, calibration data sources, and calibration sample sizes. This paper proposes Mixture-of-Novices-and-Experts (MoNE), a novel expert pruning method that replaces redundant experts with lightweight novices to achieve effective and robust model compression. MoNE evaluates expert redundancy based on two metrics: access frequency and output variance. Experts exhibiting low usage and stable outputs are pruned and replaced with lightweight novices-unbiased estimations of their original outputs-minimizing performance degradation. Extensive experiments demonstrate that MoNE consistently outperforms baseline methods with minimal accuracy degradation across the three dimensions, confirming its effectiveness and robustness. Notably, it improves the average zero shot accuracy across nine downstream tasks by up to 2.71 under 25\% pruning ratio and 3.61 under 50\% pruning. The code is available at https://github.com/zxgx/mode-pd.
- Abstract(参考訳): Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
しかし、MoEベースのモデルをデプロイすると、すべての専門家をメモリに保持する必要があるため、かなりのメモリオーバーヘッドが発生する。
構造化プルーニングはメモリコストを削減できるが、既存の手法では、モデルアーキテクチャ、キャリブレーションデータソース、キャリブレーションサンプルサイズという3つの次元において、最適以下の性能と不安定な劣化を示すことが多い。
本稿では, 冗長な専門家を軽量な初心者に置き換え, 効果的で堅牢なモデル圧縮を実現する手法であるMixture-of-Novices-and-Experts (MoNE)を提案する。
MoNEは、アクセス周波数と出力分散という2つの指標に基づいて、専門家の冗長性を評価する。
低使用率と安定したアウトプットを示す専門家は、パフォーマンス劣化を最小限に抑える軽量な初心者によるアウトプット推定に置き換えられる。
大規模な実験により、MoNEは3次元にわたって最小限の精度の劣化でベースライン法を一貫して上回り、その有効性と堅牢性を確認した。
特に、9つの下流タスクの平均ゼロショット精度を25 %のプルーニング比で2.71、50 %のプルーニングで3.61まで改善している。
コードはhttps://github.com/zxgx/mode-pd.comで公開されている。
関連論文リスト
- ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Enhancing One-shot Pruned Pre-trained Language Models through Sparse-Dense-Sparse Mechanism [25.36736897890854]
事前学習された言語モデル(PLM)は、文脈理解において堅牢で、様々な自然言語処理タスクにおいて優れた性能を示すように設計されている。
現代のプルーニング戦略では、タスク特化データや一般的なデータの再トレーニングを必要とせずに、PLMを圧縮するためのワンショット技術を採用している。
重み分布最適化の観点から, 刈り取られたPLMの性能を向上させるためのスパース・デンス・スパース・プルーニング・フレームワークであるSDSを提案する。
論文 参考訳(メタデータ) (2024-08-20T01:05:45Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。