論文の概要: LLaDA-MoE: A Sparse MoE Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2509.24389v1
- Date: Mon, 29 Sep 2025 07:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.823588
- Title: LLaDA-MoE: A Sparse MoE Diffusion Language Model
- Title(参考訳): LLaDA-MoE: Sparse MoE Diffusion Language Model
- Authors: Fengqi Zhu, Zebin You, Yipeng Xing, Zenan Huang, Lin Liu, Yihong Zhuang, Guoshan Lu, Kangyu Wang, Xudong Wang, Lanning Wei, Hongrui Guo, Jiaqi Hu, Wentao Ye, Tieyuan Chen, Chenchen Li, Chengfu Tang, Haibo Feng, Jun Hu, Jun Zhou, Xiaolu Zhang, Zhenzhong Lan, Junbo Zhao, Da Zheng, Chongxuan Li, Jianguo Li, Ji-Rong Wen,
- Abstract要約: LLaDA-MoEはMixture-of-Experts (MoE)アーキテクチャを持つ大規模言語拡散モデルである。
LLaDA-MoEは計算オーバーヘッドを大幅に削減して競合性能を達成する。
この結果から,マスク拡散言語モデルの学習目標に疎結合したMoEアーキテクチャを組み込むことで,MoEの強みがもたらされることが示唆された。
- 参考スコア(独自算出の注目度): 88.96960440635992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce LLaDA-MoE, a large language diffusion model with the Mixture-of-Experts (MoE) architecture, trained from scratch on approximately 20T tokens. LLaDA-MoE achieves competitive performance with significantly reduced computational overhead by maintaining a 7B-parameter capacity while activating only 1.4B parameters during inference. Our empirical evaluation reveals that LLaDA-MoE achieves state-of-the-art performance among diffusion language models with larger parameters, surpassing previous diffusion language models LLaDA, LLaDA 1.5, and Dream across multiple benchmarks. The instruct-tuned model LLaDA-MoE-7B-A1B-Instruct demonstrates capabilities comparable to Qwen2.5-3B-Instruct in knowledge understanding, code generation, mathematical reasoning, agent and alignment tasks, despite using fewer active parameters. Our results show that integrating a sparse MoE architecture into the training objective of masked diffusion language models still brings out MoE's strengths under efficient inference with few active parameters, and opens ample room for further exploration of diffusion language models. LLaDA-MoE models are available at Huggingface.
- Abstract(参考訳): 約20TトークンをスクラッチからトレーニングしたMixture-of-Experts (MoE) アーキテクチャを備えた大規模言語拡散モデルであるLLaDA-MoEを紹介する。
LLaDA-MoEは、7Bパラメータのキャパシティを維持しながら、推論中に1.4Bパラメータのみを活性化することにより、計算オーバーヘッドを大幅に削減した競合性能を実現する。
LLaDA, LLaDA 1.5, Dreamを複数ベンチマークで比較したところ, LLaDA-MoEは, 従来の拡散言語モデルよりも大きなパラメータを持つ拡散言語モデル間で, 最先端の性能を実現していることがわかった。
Instruct-tuned model LLaDA-MoE-7B-A1B-InstructはQwen2.5-3B-Instruct in knowledge understanding, code generation, mathematical reasoning, agent and alignment task, using less active parameters。
この結果から, マスク付き拡散言語モデルの学習目標に疎らなMoEアーキテクチャを組み込むことで, 有効パラメータの少ない効率的な推論の下でもMoEの強みを生かし, 拡散言語モデルのさらなる探索に十分な余地が開けることが示唆された。
LLaDA-MoEモデルはHugingfaceで利用可能である。
関連論文リスト
- LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning [71.98260064022452]
LLaDA-Vは,視覚的インストラクションチューニングとマスク付き拡散モデルを統合した,純粋拡散に基づくマルチモーダル言語モデル(MLLM)である。
代表的な大規模言語拡散モデルであるLLaDAに基づいて構築されたLLaDA-Vには、視覚的特徴を言語埋め込み空間に投影するビジョンエンコーダとコネクタが組み込まれている。
論文 参考訳(メタデータ) (2025-05-22T17:23:26Z) - LLaMA-MoE v2: Exploring Sparsity of LLaMA from Perspective of Mixture-of-Experts with Post-Training [18.49753274534983]
Mixture-of-Experts(MoE)モデルは、アクティベートパラメータの数を一定に保ちながら、モデルサイズをスケールする上で人気が高まっている。
変換器ブロック内のMoEモジュール(すなわちMoE)とMoEモジュールの両方に対してMoEを構築することにより,高密度LLaMAモデルの疎さを徹底的に検討する。
スパシティの増大による性能劣化に対処するために,2段階のポストトレーニング戦略を設計する。
論文 参考訳(メタデータ) (2024-11-24T04:26:04Z) - Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - LLaMA-MoE: Building Mixture-of-Experts from LLaMA with Continual Pre-training [21.359073227913303]
大規模な環境でのMoEのスクラッチからのトレーニングは、依然としてデータ不足と不安定な問題に悩まされている。
この制限により、既存の高密度大言語モデルからMoEモデルを構築することを検討する。
我々のLLaMA-MoEモデルは、同様のアクティベーションパラメータを含む高密度モデルよりも著しく優れている。
論文 参考訳(メタデータ) (2024-06-24T11:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。