論文の概要: Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging
- arxiv url: http://arxiv.org/abs/2506.23266v1
- Date: Sun, 29 Jun 2025 14:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.796102
- Title: Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging
- Title(参考訳): Sub-MoE: サブスペースエキスパートマージによるLLM圧縮の効率化
- Authors: Lujun Li, Zhu Qiyuan, Jiacheng Wang, Wei Li, Hao Gu, Sirui Han, Yike Guo,
- Abstract要約: Sub-MoE は Subspace Expert Merging による新しい MoE 圧縮フレームワークである。
我々の重要な洞察は、専門家の重み付けでSingular Value Decomposition(SVD)を共同で行うことです。
当社のSub-MoEは、既存のエキスパートプルーニングやマージ方法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 17.490596264046435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture of Experts (MoE) LLMs face significant obstacles due to their massive parameter scale, which imposes memory, storage, and deployment challenges. Although recent expert merging methods promise greater efficiency by consolidating multiple experts, they are fundamentally hindered by parameter conflicts arising from expert specialization. In this paper, we present Sub-MoE, a novel MoE compression framework via Subspace Expert Merging. Our key insight is to perform joint Singular Value Decomposition (SVD) on concatenated expert weights, reducing conflicting parameters by extracting shared $U$-matrices while enabling effective merging of the expert-specific $V$ components. Specifically, Sub-MoE consists of two innovative phases: (1) Adaptive Expert Clustering, which groups functionally coherent experts via K-means clustering based on cosine similarity of expert outputs; and (2) Subspace Expert Merging, which first enforces Experts Union Decomposition to derive the shared $U$-matrix across experts in the same group, then pursues frequency-based merging for individual $V$-matrices, and finalizes expert reconstruction using the merged $V$-matrix. In this way, we align and fuse experts in a shared subspace, and can be extended with intra-expert compression for further inference optimization. Extensive experiments on Mixtral, DeepSeek, and Qwen-1.5|3 MoE LLMs demonstrate that our Sub-MoE significantly outperforms existing expert pruning and merging methods. Notably, our Sub-MoE maintains 96\%|86\% of original performance with 25\%|50\% expert reduction on Mixtral-8x7B in zero-shot benchmarks. Code will be released at https://github.com/lliai/MoERazor.
- Abstract(参考訳): エキスパートの混合 (MoE) LLMは、メモリ、ストレージ、デプロイメントの課題を課す巨大なパラメータスケールのために、重大な障害に直面します。
最近のエキスパートマージ手法は、複数の専門家を統合することでより効率を向上するが、専門家の専門化によって引き起こされるパラメータの衝突によって、それらは根本的に妨げられている。
本稿では,Subspace Expert Mergingによる新しいMoE圧縮フレームワークであるSub-MoEを提案する。
我々の重要な洞察は、連結された専門家の重み付けについて共同でSingular Value Decomposition(SVD)を行い、共有された$U$-matricesを抽出し、専門家固有の$V$コンポーネントを効果的にマージすることで競合パラメータを削減することである。
適応的エキスパートクラスタリング(Adaptive Expert Clustering)は、専門家出力のコサイン類似性に基づいてK平均クラスタリングを介して機能的にコヒーレントな専門家をグループ化するもので、(2)サブスペースエキスパートマージング(Subspace Expert Merging)は、最初にエキスパートズ・ユニオン(Communists Union)を強制し、同一グループの専門家間で共有された$U$行列を導出し、その後、個別の$V$行列の周波数ベースのマージンを追求し、統合された$V$行列を用いてエキスパート再構築を完了させる。
このようにして、我々は専門家を共有部分空間に整列させて融合させ、さらなる推論最適化のためにエキスパート内圧縮で拡張することができる。
Mixtral、DeepSeek、Qwen-1.5|3 MoE LLMの大規模な実験により、我々のSub-MoEは既存のプルーニング法やマージ法よりも大幅に優れていることが示された。
特に、我々のSub-MoEは、ゼロショットベンチマークでMixtral-8x7Bに対して、元のパフォーマンスの96\%|86\%を維持し、25\%|50\%のエキスパートリダクションを維持しています。
コードはhttps://github.com/lliai/MoERazor.comでリリースされる。
関連論文リスト
- Domain-Specific Pruning of Large Mixture-of-Experts Models with Few-shot Demonstrations [48.890534958441016]
本研究では,大規模MoEモデルにおける領域の特殊化と専門的冗長性について検討する。
本稿では,最も関係のある専門家のみを識別・保持するための簡易で効果的な刈取フレームワークであるEASY-EPを提案する。
DeepSeek-R1とDeepSeek-V3-0324の実験は、我々の手法が同じメモリ予算の下で同等の性能と2.99タイムのスループットを達成できることを示した。
論文 参考訳(メタデータ) (2025-04-09T11:34:06Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Merging Experts into One: Improving Computational Efficiency of Mixture
of Experts [71.44422347502409]
スパースミキチャー・オブ・エキスパート(MoE)は、パラメータの小さなサブセットをアクティベートすることでコストを削減することができる。
計算コストを大幅に高めることなく、より多くの専門家を追加するという利点を維持できるだろうか?
そこで我々は,textbftexttMerging Experts into One (MEO) という計算効率のよい手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T13:28:42Z) - Merge, Then Compress: Demystify Efficient SMoE with Hints from Its Routing Policy [84.11508381847929]
わずかに活性化されたMixture-of-Experts(SMoE)は、ニューラルネットワークの学習能力のスケールアップを約束している。
ルーティング統計を利用したM-SMoEを提案する。
我々のMC-SMoEは最大80%のメモリと20%のFLOPを削減でき、性能は実質的に損なわれない。
論文 参考訳(メタデータ) (2023-10-02T16:51:32Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。