論文の概要: Mosaic Pruning: A Hierarchical Framework for Generalizable Pruning of Mixture-of-Experts Models
- arxiv url: http://arxiv.org/abs/2511.19822v1
- Date: Tue, 25 Nov 2025 01:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.222235
- Title: Mosaic Pruning: A Hierarchical Framework for Generalizable Pruning of Mixture-of-Experts Models
- Title(参考訳): Mosaic Pruning:Mixture-of-Expertsモデルの一般化可能なPruningのための階層的フレームワーク
- Authors: Wentao Hu, Mingkuan Zhao, Shuangyong Song, Xiaoyan Zhu, Xin Lai, Jiayin Wang,
- Abstract要約: SMOE(Sparse Mixture-of-Experts)のためのMosaic Pruning(MoP)を紹介する。
MoPは構造化クラスタ-then-selectプロセスを通じて、機能的に包括的な専門家のセットを構築する。
一つのコーパスを最適化する手法とは異なり、提案したモザイク・プルーニングは、プルーニングモデルが機能的に相補的な専門家の集合を保持することを保証します。
- 参考スコア(独自算出の注目度): 18.395286169436794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (SMoE) architectures have enabled a new frontier in scaling Large Language Models (LLMs), offering superior performance by activating only a fraction of their total parameters during inference. However, their practical deployment is severely hampered by substantial static memory overhead, as all experts must be loaded into memory. Existing post-training pruning methods, while reducing model size, often derive their pruning criteria from a single, general-purpose corpus. This leads to a critical limitation: a catastrophic performance degradation when the pruned model is applied to other domains, necessitating a costly re-pruning for each new domain. To address this generalization gap, we introduce Mosaic Pruning (MoP). The core idea of MoP is to construct a functionally comprehensive set of experts through a structured ``cluster-then-select" process. This process leverages a similarity metric that captures expert performance across different task domains to functionally cluster the experts, and subsequently selects the most representative expert from each cluster based on our proposed Activation Variability Score. Unlike methods that optimize for a single corpus, our proposed Mosaic Pruning ensures that the pruned model retains a functionally complementary set of experts, much like the tiles of a mosaic that together form a complete picture of the original model's capabilities, enabling it to handle diverse downstream tasks.Extensive experiments on various MoE models demonstrate the superiority of our approach. MoP significantly outperforms prior work, achieving a 7.24\% gain on general tasks and 8.92\% on specialized tasks like math reasoning and code generation.
- Abstract(参考訳): SMOE(Sparse Mixture-of-Experts)アーキテクチャにより、LLM(Large Language Models)のスケーリングにおける新たなフロンティアが実現された。
しかしながら、その実践的なデプロイメントは、すべての専門家をメモリにロードしなければならないため、かなりの静的メモリオーバーヘッドによって著しく妨げられます。
既存の訓練後のプルーニング法は、モデルのサイズを減らしながら、1つの汎用コーパスからプルーニング基準を導出することが多い。
プルーニングされたモデルが他のドメインに適用された場合、破滅的なパフォーマンス劣化が発生し、新しいドメインごとにコストがかかる再プルーニングが必要になる。
この一般化ギャップに対処するために,Mosaic Pruning (MoP)を導入する。
MoPの中核となる考え方は、構造化された‘cluster-then-select’プロセスを通じて、機能的に包括的な専門家のセットを構築することである。
このプロセスは、異なるタスクドメイン間で専門家のパフォーマンスをキャプチャして専門家を機能的にクラスタ化し、提案したActivation Variability Scoreに基づいて、各クラスタから最も代表的なエキスパートを選択します。
一つのコーパスを最適化する手法とは異なり、提案したモザイク・プルーニングは、モザイクのタイルのように機能的に相補的な専門家の集合を保持することを保証します。
MoPは以前の作業よりも優れており、一般的なタスクでは7.24\%、数学推論やコード生成といった特殊なタスクでは8.92\%を達成している。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models [24.64757529640278]
クラスタ駆動のExpert Pruning(C-Prune)は、大規模言語モデルの適応的なタスク固有圧縮のための新しい2段階のフレームワークである。
C-Pruneはレイヤワイドの専門家クラスタリングを通じて動作し、各MoE層内で機能的に類似した専門家をグループ化する。
複数のMoEモデルとベンチマークの広範な実験を通じてC-Pruneを検証する。
論文 参考訳(メタデータ) (2025-04-10T14:46:26Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。