論文の概要: Post-Trained MoE Can Skip Half Experts via Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.18643v1
- Date: Mon, 18 May 2026 16:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.107531
- Title: Post-Trained MoE Can Skip Half Experts via Self-Distillation
- Title(参考訳): トレーニング後のMoEは自己蒸留で半分のエキスパートをスキップできる
- Authors: Xingtai Lv, Li Sheng, Kaiyan Zhang, Yichen You, Siyan Gao, Xueheng Luo, Yuxin Zuo, Yuchen Fan, Junlin Yang, Ganqu Cui, Bingning Wang, Fan Yang, Youbang Sun, Ning Ding, Bowen Zhou,
- Abstract要約: Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて、言語モデルを効率的にスケールする。
MoEの動的変種は、アクティベートされた専門家を入力依存の方法で調整することで、計算をさらに削減する。
本稿では,Zero-Expert Self-Distillation Adaptation (ZEDA)について紹介する。
- 参考スコア(独自算出の注目度): 35.17955778301488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) scales language models efficiently through sparse expert activation, and its dynamic variant further reduces computation by adjusting the activated experts in an input-dependent manner. Existing dynamic MoE methods usually rely on pre-training from scratch or task-specific adaptation, leaving the practical conversion of fully trained MoE underexplored. Enabling such adaptation would directly alleviate the inference costs by allowing easy tokens to bypass unnecessary expert during serving. This paper introduces Zero-Expert Self-Distillation Adaptation (ZEDA), a low-cost framework that transforms post-trained static MoE models into efficient dynamic ones. To stabilize this architectural conversion, ZEDA injects parameter-free zero-output experts into each MoE layer and adapts the augmented model through two-stage self-distillation, utilizing the original MoE as a frozen teacher and applying a group-level balancing loss. On Qwen3-30B-A3B and GLM-4.7-Flash across 11 benchmarks spanning math, code, and instruction following, ZEDA eliminates over 50% of expert FLOPs at marginal accuracy loss. It outperforms the strongest dynamic MoE baseline by 6.1 and 4.0 points on the two models, and delivers ~1.20$\times$ end-to-end inference speedup.
- Abstract(参考訳): Mixture-of-Experts (MoE) はスパース専門家のアクティベーションを通じて言語モデルを効率的にスケールし、動的変種はアクティベート専門家を入力に依存した方法で調整することによって計算をさらに削減する。
既存の動的MoE手法は、通常、スクラッチやタスク固有の適応から事前訓練を頼りにしており、完全に訓練されたMoEの実践的な変換は未調査のままである。
このような適応の実施は、サービス中に不要な専門家をバイパスして簡単にトークンを発行することで、推論コストを直接軽減する。
本稿では,Zero-Expert Self-Distillation Adaptation (ZEDA)について紹介する。
このアーキテクチャ変換を安定化させるために、ZEDAはパラメータフリーゼロ出力の専門家を各MoE層に注入し、2段階の自己蒸留により拡張モデルを適応させ、元のMoEを凍結教師として利用し、グループレベルのバランス損失を適用した。
Qwen3-30B-A3BとGLM-4.7-Flashは数学、コード、命令にまたがる11のベンチマークで、ZEDAは専門のFLOPの50%以上の精度の損失を排除している。
これは2つのモデルで6.1ポイントと4.0ポイントで最強の動的MoEベースラインを上回り、 ~1.20$\times$ end-to-end推論スピードアップを提供する。
関連論文リスト
- BEAM: Binary Expert Activation Masking for Dynamic Routing in MoE [18.898045833395095]
Mixture-of-Experts (MoE)アーキテクチャはトークンごとに専門家のサブセットだけを活性化する。
既存のアクセラレーション手法では、アーキテクチャの変更でコストがかかるか、あるいは高頻度で厳しいパフォーマンス低下に苦しむ必要がある。
訓練可能なバイナリマスクを用いてトークン適応型エキスパート選択を学習する新しい手法BEAMを提案する。
論文 参考訳(メタデータ) (2026-05-14T06:33:41Z) - Uncovering Intra-expert Activation Sparsity for Efficient Mixture-of-Expert Model Execution [34.06023804017819]
我々は,MoEモデルにおいて,経験的アクティベーション空間を相補的かつ未探索の空間空間次元として探求し,活用する。
驚くべきことに、既存のトレーニング済みのMoEモデルでは、相当な試験内間隔が容易に利用できる。
我々は、不活性ニューロンの計算をスキップすることで、エキスパート内アクティベーション間隔を活用するために、vLLMのMoE実行パイプラインを拡張した。
論文 参考訳(メタデータ) (2026-05-09T00:34:55Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction [15.261077484922616]
Mixture of Experts (MoE) はLarge Language Models (LLM) の主流アーキテクチャとなった。
トレーニング済みMoEモジュールにおけるテンソルとニューロンの二重間隔を精度と効率の両立の鍵因子として同定した。
本稿では,動的テンソルレベル低下と静的ニューロンレベル再構成を統合する推論システムであるDualSparse-MoEを提案する。
論文 参考訳(メタデータ) (2025-08-25T18:08:32Z) - ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [7.230514235208748]
我々は、変圧器モデルを等価な専門家グループに分解するUnion-of-Experts (UoE)を提案する。
言語モデリングタスクでは、最高の性能のMoE法と比較して、UoEはパープレキシティの平均2.38の削減を実現している。
画像分類では、最高のモデルよりも平均精度が1.75%向上する。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - From Dense to Dynamic: Token-Difficulty Driven MoEfication of Pre-Trained LLMs [37.50902921493273]
異なる推論制約に対する大規模言語モデル(LLM)のトレーニングには計算コストがかかる。
DynaMoEは、最小の微調整コストでトークン微分駆動型Mixture-of-Expertsモデルに事前訓練された高密度LCMを適用する。
提案手法は, 微調整コストの$frac19textth$しか使用していないにもかかわらず, 下流タスク間で類似の集計精度を実現する。
論文 参考訳(メタデータ) (2025-02-17T21:12:57Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Mixture Compressor for Mixture-of-Experts LLMs Gains More [71.0473038084673]
我々は、Mixture-of-Experts Large Language Model (MoE-LLMs) のためのトレーニング不要なMixture-Compressorを提案する。
我々のMCは静的量子化と動的プルーニングを統合し、より少ない精度でMoE-LLMの極端な圧縮を実現する。
例えば、2.54ビットでは、MCは76.6%を圧縮し、平均精度損失は3.8%である。
論文 参考訳(メタデータ) (2024-10-08T18:09:38Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。