論文の概要: Sigma-Moe-Tiny Technical Report
- arxiv url: http://arxiv.org/abs/2512.16248v1
- Date: Thu, 18 Dec 2025 06:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.959983
- Title: Sigma-Moe-Tiny Technical Report
- Title(参考訳): Sigma-Moe-Tiny 技術報告
- Authors: Qingguo Hu, Zhenghao Lin, Ziyue Yang, Yucheng Ding, Xiao Liu, Yuting Jiang, Ruizhe Wang, Tianyu Chen, Zhongxin Guo, Yifan Xiong, Rui Gao, Lei Qu, Jinsong Su, Peng Cheng, Yeyun Gong,
- Abstract要約: Mixture-of-Experts (MoE)は、その効率的で強力なスケーラビリティのために、基礎モデルにとって有望なパラダイムとして登場した。
我々は,既存のオープンソースモデルと比較して最も親和性が高いMoE言語モデルであるSigma-MoE-Tinyを提案する。
Sigma-MoE-Tinyは、各トークンに対して1つの専門家のみを活性化し、0.5Bで合計20Bのパラメータを活性化する。
- 参考スコア(独自算出の注目度): 49.297745740080636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has emerged as a promising paradigm for foundation models due to its efficient and powerful scalability. In this work, we present Sigma-MoE-Tiny, an MoE language model that achieves the highest sparsity compared to existing open-source models. Sigma-MoE-Tiny employs fine-grained expert segmentation with up to 96 experts per layer, while activating only one expert for each token, resulting in 20B total parameters with just 0.5B activated. The major challenge introduced by such extreme sparsity lies in expert load balancing. We find that the widely-used load balancing loss tends to become ineffective in the lower layers under this setting. To address this issue, we propose a progressive sparsification schedule aiming to balance expert utilization and training stability. Sigma-MoE-Tiny is pre-trained on a diverse and high-quality corpus, followed by post-training to further unlock its capabilities. The entire training process remains remarkably stable, with no occurrence of irrecoverable loss spikes. Comprehensive evaluations reveal that, despite activating only 0.5B parameters, Sigma-MoE-Tiny achieves top-tier performance among counterparts of comparable or significantly larger scale. In addition, we provide an in-depth discussion of load balancing in highly sparse MoE models, offering insights for advancing sparsity in future MoE architectures. Project page: https://qghuxmu.github.io/Sigma-MoE-Tiny Code: https://github.com/microsoft/ltp-megatron-lm
- Abstract(参考訳): Mixture-of-Experts (MoE)は、その効率的で強力なスケーラビリティのために、基礎モデルにとって有望なパラダイムとして登場した。
そこで本研究では,既存のオープンソースモデルと比較して高い空間性を実現するMoE言語モデルであるSigma-MoE-Tinyを提案する。
Sigma-MoE-Tinyは、各トークンに対して1つの専門家のみを活性化し、0.5Bで合計20Bのパラメータを活性化する。
このような極端な分散によってもたらされる大きな課題は、専門家のロードバランシングにある。
この設定下層では, 広く使用されている負荷分散損失は非効率になる傾向にある。
この問題に対処するために,専門家の活用とトレーニングの安定性のバランスをとることを目的とした,段階的なスペーシフィケーションスケジュールを提案する。
Sigma-MoE-Tinyは、多種多様な高品質のコーパスで事前訓練され、その後、その能力をさらに解き放つためのポストトレーニングが行われる。
トレーニングプロセス全体が著しく安定しており、発見不可能な損失スパイクは発生しない。
Sigma-MoE-Tiny は 0.5B のパラメータのみを活性化するにもかかわらず、同等またはかなり大きなスケールで上位レベルのパフォーマンスを達成している。
さらに、疎結合なMoEモデルにおけるロードバランシングについて、より深く議論し、将来のMoEアーキテクチャにおける疎結合を推し進めるための洞察を提供する。
プロジェクトページ: https://qghuxmu.github.io/Sigma-MoE-Tiny Code: https://github.com/microsoft/ltp-megatron-lm
関連論文リスト
- Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs [80.72350166388601]
Nemotron Elasticは推論指向のLLMを構築するためのフレームワークである。
ネストしたサブモデルを単一の親モデルに組み込む。
これらのサブモデルはそれぞれ、親モデルと重みを共有し、デプロイ中にゼロショットを抽出できる。
論文 参考訳(メタデータ) (2025-11-20T18:59:21Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Can Mixture-of-Experts Surpass Dense LLMs Under Strictly Equal Resources? [58.56306556151929]
Mixture-of-Experts (MoE)言語モデルは、モデルキャパシティを劇的に拡張し、トーケン毎の計算量を増やすことなく優れたパフォーマンスを達成する。
MoEsは厳密なリソース制約の下で密集したアーキテクチャを超えることができるか?
最適領域における活性化率を持つMoEモデルは,同じパラメータ,トレーニング計算,およびデータ資源の下で,その密度の高いモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:59:05Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。