論文の概要: PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference
- arxiv url: http://arxiv.org/abs/2511.04805v1
- Date: Thu, 06 Nov 2025 20:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.587583
- Title: PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference
- Title(参考訳): PuzzleMoE: Sparse Expert MergingとBit-packed Inferenceによる大規模混合実験モデルの効率的な圧縮
- Authors: Yushu Zhao, Zheng Wang, Minjia Zhang,
- Abstract要約: 本稿では,2つの重要なイノベーションを通じて高精度かつ効率的な推論を実現する,トレーニング不要なMoE圧縮手法であるPuzzleMoEを紹介する。
第一に、PuzzleMoEは要素単位の重量冗長性と特殊化を識別してスパースエキスパートマージを行う。
第二に、バイナリマスクとサインの保存のオーバーヘッドを避けるために、PuzzleMoEは未使用の指数ビットを再利用するビットパック符号化方式を導入した。
- 参考スコア(独自算出の注目度): 17.441141633991197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models have shown strong potential in scaling language models efficiently by activating only a small subset of experts per input. However, their widespread deployment remains limited due to the high memory overhead associated with storing all expert parameters, particularly as the number of experts increases. To address this challenge, prior works have explored expert dropping and merging strategies, yet they often suffer from performance drop at high compression ratios. In this paper, we introduce PuzzleMoE, a training-free MoE compression method that achieves both high accuracy and efficient inference through two key innovations: First, PuzzleMoE performs sparse expert merging by identifying element-wise weight redundancy and specialization. It uses a dual-mask to capture both shared and expert-specific parameters. Second, to avoid the overhead of storing binary masks and signs, PuzzleMoE introduces a bit-packed encoding scheme that reuses underutilized exponent bits, enabling efficient MoE inference on GPUs. Extensive experiments demonstrate that PuzzleMoE can compress MoE models by up to 50% while maintaining accuracy across various tasks. Specifically, it outperforms prior MoE compression methods by up to 16.7% on MMLU at 50% compression ratio, and achieves up to 1.28\times inference speedup.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、入力毎に少数の専門家のみを活性化することにより、言語モデルを効率的にスケーリングする可能性を示している。
しかしながら、専門家の数が増加するにつれて、すべての専門家パラメータを格納する際のメモリオーバーヘッドが高くなるため、広くデプロイされることは依然として限られている。
この課題に対処するために、以前の研究は専門家のドロップとマージ戦略を探求してきたが、しばしば高い圧縮比でパフォーマンスの低下に悩まされる。
本稿では,PuzzleMoEとPuzzleMoEの2つの重要なイノベーションを通じて,高精度かつ効率的な推論を実現する,学習不要なMoE圧縮手法であるPuzzleMoEを紹介する。
デュアルマスクを使用して、共有パラメータと専門家固有のパラメータの両方をキャプチャする。
次に、バイナリマスクとサインを格納するオーバーヘッドを回避するため、PuzzleMoEは、未使用の指数ビットを再利用するビットパック符号化スキームを導入し、GPU上で効率的なMoE推論を可能にする。
大規模な実験では、PuzzleMoEがMoEモデルを最大50%圧縮でき、様々なタスクの精度を維持している。
具体的には、従来のMoE圧縮手法を最大16.7%圧縮比で50%圧縮し、最大1.28\times推論速度アップを達成する。
関連論文リスト
- MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts [17.518573710849513]
MoBiLEは、プラグイン・アンド・プレイのオフロードベースのMoE推論フレームワークで、大手専門家のテキストミキサーを備えている。
MoBiLEは、コンシューマGPUシステムのベースラインと比較して1.60倍から1.72倍のスピードアップを実現し、精度の劣化は無視できる。
論文 参考訳(メタデータ) (2025-10-14T10:22:44Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis [55.099051077903766]
MoE(Mixture-of-Experts)を備えた大規模言語モデルは、計算と記憶のオーバーヘッドに悩まされる。
行列にまたがるより微細な圧縮ユニットとしてマイクロエキスパートを導入する。
マイクロエキスパートのための構造化プルーニングフレームワークであるCAMERA-Pと、マイクロエキスパート向けに設計された混合精度量子化アイデアであるCAMERA-Qを提案する。
論文 参考訳(メタデータ) (2025-08-04T11:42:48Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - Towards Efficient Mixture of Experts: A Holistic Study of Compression Techniques [17.436189502801163]
本稿では,Mixture of Expertsの圧縮技術に関する総合的研究を行い,効率性とスケーラビリティを両立させる。
我々は,全MoE層を除去するLayer Dropと,トランスフォーマーブロックを除去するBlock Dropを提案する。
また、個々の専門家を圧縮してパフォーマンスをさらに向上させ、Expert Trimmingとシームレスに統合できるExpert Slimmingを紹介します。
論文 参考訳(メタデータ) (2024-06-04T17:18:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。