論文の概要: Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe
- arxiv url: http://arxiv.org/abs/2512.01252v1
- Date: Mon, 01 Dec 2025 03:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.67775
- Title: Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe
- Title(参考訳): 拡散混合実験モデルの効率的な訓練:実践的準備
- Authors: Yahui Liu, Yang Yue, Jingyuan Zhang, Chenxi Sun, Yang Zhou, Wencong Zeng, Ruiming Tang, Guorui Zhou,
- Abstract要約: Diffusion MoEモデルに対する最近の取り組みは、主により洗練されたルーティングメカニズムの開発に焦点を当てている。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,効率的な拡散MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
本稿では,潜在空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 51.26601054313749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent efforts on Diffusion Mixture-of-Experts (MoE) models have primarily focused on developing more sophisticated routing mechanisms. However, we observe that the underlying architectural configuration space remains markedly under-explored. Inspired by the MoE design paradigms established in large language models (LLMs), we identify a set of crucial architectural factors for building effective Diffusion MoE models--including DeepSeek-style expert modules, alternative intermediate widths, varying expert counts, and enhanced attention positional encodings. Our systematic study reveals that carefully tuning these configurations is essential for unlocking the full potential of Diffusion MoE models, often yielding gains that exceed those achieved by routing innovations alone. Through extensive experiments, we present novel architectures that can be efficiently applied to both latent and pixel-space diffusion frameworks, which provide a practical and efficient training recipe that enables Diffusion MoE models to surpass strong baselines while using equal or fewer activated parameters. All code and models are publicly available at: https://github.com/yhlleo/EfficientMoE.
- Abstract(参考訳): 拡散混合(MoE)モデルに関する最近の研究は、主により洗練されたルーティング機構の開発に重点を置いている。
しかし、基礎となるアーキテクチャ構成空間は明らかに未探索のままである。
大規模言語モデル(LLM)で確立されたMoE設計パラダイムに着想を得て,Diffusion MoEモデルを構築する上で重要なアーキテクチャ要素のセットを特定する。
我々の系統的な研究は、これらの構成を慎重に調整することが拡散型MOEモデルの潜在能力を最大限に活用するために不可欠であることを示した。
広範にわたる実験を通じて,潜伏空間拡散フレームワークと画素空間拡散フレームワークの両方に効率よく適用可能な新しいアーキテクチャを提案する。
すべてのコードとモデルは、https://github.com/yhlleo/EfficientMoE.comで公開されている。
関連論文リスト
- ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文 参考訳(メタデータ) (2026-02-17T11:50:58Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts [18.18231276284727]
Mixture-of-Experts (MoE)モデルは、大きなパラメータセットをわずかに活性化することにより、スケーラブルなパフォーマンスを実現する。
近年の作業では、フィードフォワードネットワーク(FFN)層を専門家に複製することで、トレーニング済みの高密度モデル1つを再利用している。
本稿では、複数の同一構造を持つ異なる事前学習モデルから得られたエキスパートを用いて、強力なMoEモデルを構築することにより、この制限に対処する。
論文 参考訳(メタデータ) (2025-09-23T02:07:14Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Multi-Architecture Multi-Expert Diffusion Models [18.463425624382115]
我々は,Multi-architecturE Multi-Expertfusion Model (MEME)を紹介する。
MEMEはベースラインよりも3.3倍高速で、画像生成品質(FIDスコア)を0.62(FFHQ)と0.37(CelebA)改善している。
我々はMEMEが,大規模なマルチエキスパートモデルなど他のシナリオにも容易に適用可能な拡散モデルに対して,新たな設計選択を開放すると主張している。
論文 参考訳(メタデータ) (2023-06-08T07:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。