論文の概要: Effective MoE-based LLM Compression by Exploiting Heterogeneous Inter-Group Experts Routing Frequency and Information Density
- arxiv url: http://arxiv.org/abs/2602.09316v1
- Date: Tue, 10 Feb 2026 01:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.311068
- Title: Effective MoE-based LLM Compression by Exploiting Heterogeneous Inter-Group Experts Routing Frequency and Information Density
- Title(参考訳): 周波数と情報密度をルーティングする不均一なグループ間エキスパートの爆発による効果的なMoEに基づくLLM圧縮
- Authors: Zhendong Mi, Yixiao Chen, Pu Zhao, Xiaodong Yu, Hao Wang, Yanzhi Wang, Shaoyi Huang,
- Abstract要約: Mixture-of-Experts (MoE) ベースのLarge Language Models (LLM) は優れたパフォーマンスを実現している。
複数の専門家ネットワークを格納することによる大量のメモリオーバーヘッドは、実践的なデプロイメントを著しく妨げます。
我々は、不均一なルーティング周波数と情報密度を利用して、MoE圧縮のための効果的なフレームワークRFID-MoEを提案する。
- 参考スコア(独自算出の注目度): 30.94369556247692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) based Large Language Models (LLMs) have achieved superior performance, yet the massive memory overhead caused by storing multiple expert networks severely hinders their practical deployment. Singular Value Decomposition (SVD)-based compression has emerged as a promising post-training technique; however, most existing methods apply uniform rank allocation or rely solely on static weight properties. This overlooks the substantial heterogeneity in expert utilization observed in MoE models, where frequent routing patterns and intrinsic information density vary significantly across experts. In this work, we propose RFID-MoE, an effective framework for MoE compression by exploiting heterogeneous Routing Frequency and Information Density. We first introduce a fused metric that combines expert activation frequency with effective rank to measure expert importance, adaptively allocating higher ranks to critical expert groups under a fixed budget. Moreover, instead of discarding compression residuals, we reconstruct them via a parameter-efficient sparse projection mechanism to recover lost information with minimal parameter overhead. Extensive experiments on representative MoE LLMs (e.g., Qwen3, DeepSeekMoE) across multiple compression ratios demonstrate that RFID-MoE consistently outperforms state-of-the-art methods like MoBE and D2-MoE. Notably, RFID-MoE achieves a perplexity of 16.92 on PTB with the Qwen3-30B model at a 60% compression ratio, reducing perplexity by over 8.0 compared to baselines, and improves zero-shot accuracy on HellaSwag by approximately 8%.
- Abstract(参考訳): Mixture-of-Experts (MoE)ベースのLarge Language Models (LLMs) は優れたパフォーマンスを実現しているが、複数の専門家ネットワークを格納することによるメモリオーバーヘッドは、その実践的なデプロイメントを著しく妨げている。
Singular Value Decomposition (SVD) ベースの圧縮は、トレーニング後の有望な手法として登場したが、既存のほとんどの手法は、均一なランク割り当てを適用したり、静的な重み特性にのみ依存する。
このことは、頻繁にルーティングパターンと固有情報密度が専門家間で著しく異なるMOEモデルで観察される専門家利用のかなりの不均一性を見落としている。
本研究では、不均一なルーティング周波数と情報密度を利用して、MoE圧縮のための効果的なフレームワークRFID-MoEを提案する。
まず、専門家アクティベーション頻度と効果的なランクを組み合わせて、専門家の重要度を測定し、一定の予算の下で専門家グループにより高いランクを適応的に割り当てる、融合計量を導入する。
さらに, 圧縮残余を廃棄する代わりに, パラメータ効率の低いスパースプロジェクション機構を用いて再構成し, 損失情報を最小限のパラメータオーバヘッドで復元する。
複数の圧縮比における代表MoE LLM(例えば、Qwen3、DeepSeekMoE)の広範な実験は、RFID-MoEがMoBEやD2-MoEのような最先端の手法を一貫して上回っていることを示している。
特に、RFID-MoE は Qwen3-30B モデルで PTB 上で 16.92 のパープレキシティを 60% 圧縮比で達成し、ベースラインと比較して 8.0 以上のパープレキシティを減少させ、HellaSwag のゼロショット精度を 8% 向上させる。
関連論文リスト
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs [25.218350580080447]
MoBEは前作に比べて顕著に精度が低下する。
MoBEはQwen3-235B-A22B-2507、DeepSeek-V3-0324 (671B)、Kimi-K2-Instruct (1T)のパラメータ数を24%-30%削減できる。
論文 参考訳(メタデータ) (2025-08-07T10:48:24Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - MoE-I$^2$: Compressing Mixture of Experts Models through Inter-Expert Pruning and Intra-Expert Low-Rank Decomposition [32.97035551579975]
モデルサイズを小さくし,計算コストを低減させるために,MoEに適した2段階圧縮手法を提案する。
Qwen1.5-MoE-A2.7B、DeepSeek-V2-Lite、Mixtral-8$times$7Bの実験により、提案手法はモデルサイズを低減し、推論効率を向上させることができることを示した。
論文 参考訳(メタデータ) (2024-11-01T20:37:58Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。