論文の概要: Pruning and Distilling Mixture-of-Experts into Dense Language Models
- arxiv url: http://arxiv.org/abs/2605.28207v1
- Date: Wed, 27 May 2026 09:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.928906
- Title: Pruning and Distilling Mixture-of-Experts into Dense Language Models
- Title(参考訳): 厳密な言語モデルへの試行錯誤と蒸留
- Authors: Junhyuck Kim, Jihun Yun, Haechan Kim, Gyeongman Kim, Joonghyun Bae, Jaewoong Cho,
- Abstract要約: Mixture-of-Experts (MoE) は現在、フロンティア言語モデルの主要なアーキテクチャである。
トレーニングされたMoEを標準の完全高密度アーキテクチャに変換するための,最初の体系的フレームワークを提案する。
我々は,Qwen3-30B-A3Bを用いて,7つのスコア,5つのグループ化,および2つのスケール法を評価し,350の構成を得た。
- 参考スコア(独自算出の注目度): 13.03679207895992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) is now the dominant architecture for frontier language models, yet it requires all expert parameters to be loaded in memory, making it less preferable for memory-constrained deployment. Existing compression methods reduce the number of experts but the output remains an MoE model with the same fundamental limitation. We present the first systematic framework for converting a trained MoE into a standard fully dense architecture: experts are scored, selected, and grouped, then concatenated into a dense FFN and refined by knowledge distillation from the MoE teacher. We evaluate 7 scoring, 5 grouping, and 2 magnitude scaling methods across a range of selected expert counts on Qwen3-30B-A3B, yielding 350 configurations. We find that the choice of scoring method is the most impactful, with our novel diversity-aware scoring consistently outperforming prior methods on Qwen3-30B-A3B, DeepSeek-V2-Lite, and GPT-OSS-20B. Under a controlled comparison at matched parameter count, MoE-to-dense outperforms dense-to-dense pruning by +6.3 pp in average downstream accuracy after ~4B-token distillation at 1.6x faster training wall-clock speed.
- Abstract(参考訳): 現在、Mixture-of-Experts (MoE) はフロンティア言語モデルの主要なアーキテクチャであるが、すべての専門家パラメータをメモリにロードする必要があるため、メモリに制約のあるデプロイメントでは好ましくない。
既存の圧縮法は専門家の数を減少させるが、出力は同じ基本的制限を持つMoEモデルのままである。
我々は,訓練されたMoEを標準の完全高密度なアーキテクチャに変換するための,最初の体系的枠組みを提示する。専門家は得点,選択,グループ化され,その後,高密度なFFNに分解され,MoE教師の知識蒸留によって洗練される。
我々は,Qwen3-30B-A3Bを用いて,7つのスコア,5つのグループ化,および2つのスケール法を評価し,350の構成を得た。
従来のQwen3-30B-A3B, DeepSeek-V2-Lite, GPT-OSS-20Bでは, 新しい多様性認識が常に先行手法よりも優れていた。
一致したパラメータ数での制御された比較では、MoE-to-denseは4B-token蒸留を1.6倍高速なトレーニングウォールクロック速度で行った後、平均下流の精度で密度と密度のプルーニングを+6.3ppで上回っている。
関連論文リスト
- Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models [25.171094765557996]
8Bの高密度と16BのMoE教師を0.6Bの学生に蒸留すると、2つの異種パイプラインがベースラインを平均1.53ポイント上回る。
HumanEvalのスコアは、ARベースラインの32.3に比べて48.78である。
論文 参考訳(メタデータ) (2026-04-29T17:59:01Z) - MoNE: Replacing Redundant Experts with Lightweight Novices for Structured Pruning of MoE [12.498106165046233]
Mixture-of-Experts (MoE)は、入力トークンごとに専門家のサブセットだけを活性化することにより、大規模言語モデルの効率的なスケーリングを可能にする。
MoNEは冗長な専門家を軽量な初心者に置き換え、効果的で堅牢なモデル圧縮を実現する。
論文 参考訳(メタデータ) (2025-07-01T03:02:59Z) - Union of Experts: Adapting Hierarchical Routing to Equivalently Decomposed Transformer [7.230514235208748]
我々は、変圧器モデルを等価な専門家グループに分解するUnion-of-Experts (UoE)を提案する。
言語モデリングタスクでは、最高の性能のMoE法と比較して、UoEはパープレキシティの平均2.38の削減を実現している。
画像分類では、最高のモデルよりも平均精度が1.75%向上する。
論文 参考訳(メタデータ) (2025-03-04T11:01:25Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。