論文の概要: MoSE: Mixture of Slimmable Experts for Efficient and Adaptive Language Models
- arxiv url: http://arxiv.org/abs/2602.06154v1
- Date: Thu, 05 Feb 2026 19:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.084032
- Title: MoSE: Mixture of Slimmable Experts for Efficient and Adaptive Language Models
- Title(参考訳): MoSE: 効率的な適応型言語モデルのためのスリムなエキスパートの混在
- Authors: Nurbek Tastan, Stefanos Laskaridis, Karthik Nandakumar, Samuel Horvath,
- Abstract要約: Mixture-of-Experts (MoE)モデルは、専門家をわずかに活性化することで、大きな言語モデルを効率的にスケールするが、専門家が選択されると、完全に実行される。
提案するMoEアーキテクチャであるMixture of Slimmable Experts (MoSE)を提案する。
- 参考スコア(独自算出の注目度): 28.87682703032017
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Experts (MoE) models scale large language models efficiently by sparsely activating experts, but once an expert is selected, it is executed fully. Hence, the trade-off between accuracy and computation in an MoE model typically exhibits large discontinuities. We propose Mixture of Slimmable Experts (MoSE), an MoE architecture in which each expert has a nested, slimmable structure that can be executed at variable widths. This enables conditional computation not only over which experts are activated, but also over how much of each expert is utilized. Consequently, a single pretrained MoSE model can support a more continuous spectrum of accuracy-compute trade-offs at inference time. We present a simple and stable training recipe for slimmable experts under sparse routing, combining multi-width training with standard MoE objectives. During inference, we explore strategies for runtime width determination, including a lightweight test-time training mechanism that learns how to map router confidence/probabilities to expert widths under a fixed budget. Experiments on GPT models trained on OpenWebText demonstrate that MoSE matches or improves upon standard MoE at full width and consistently shifts the Pareto frontier for accuracy vs. cost, achieving comparable performance with significantly fewer FLOPs.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、専門家をわずかに活性化することで、大きな言語モデルを効率的にスケールするが、専門家が選択されると、完全に実行される。
したがって、MoEモデルにおける精度と計算のトレードオフは通常大きな不連続性を示す。
提案するMoEアーキテクチャであるMixture of Slimmable Experts (MoSE)を提案する。
これにより、どの専門家がアクティベートされたかだけでなく、各専門家がどの程度利用されたかという条件付き計算が可能になる。
したがって、単一の事前訓練されたMoSEモデルは、推論時により連続的な精度計算トレードオフをサポートすることができる。
マルチ幅トレーニングと標準MoE目標を組み合わせた,スリム化可能なエキスパートのための簡易かつ安定したトレーニングレシピを提案する。
推論中、我々は、固定予算の下で、ルータの信頼性/確率を専門家の幅にマップする方法を学ぶための軽量なテストタイムトレーニングメカニズムを含む、実行時幅決定のための戦略を探求する。
OpenWebTextでトレーニングされたGPTモデルの実験では、MoSEが標準のMoEをフル幅で一致または改善し、パレートフロンティアを精度対コストで一貫してシフトし、FLOPを著しく少なくした。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。
理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。
我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文 参考訳(メタデータ) (2024-05-26T17:52:58Z) - Exploiting Inter-Layer Expert Affinity for Accelerating
Mixture-of-Experts Model Inference [3.217776693788795]
本稿では,事前学習したMoEモデルの推論を高速化するために,ExFlowと呼ばれる軽量な最適化手法を提案する。
層間エキスパート親和性を利用して, 微調整や精度の低下を伴わずに, 事前学習したMoEモデルに直接適用することができる。
我々のソリューションは、8から64のエキスパートによる最先端のMoE実装を破り、推論スループットを最大2.2倍改善しました。
論文 参考訳(メタデータ) (2024-01-16T14:16:47Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。