論文の概要: Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
- arxiv url: http://arxiv.org/abs/2510.24711v1
- Date: Tue, 28 Oct 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.335509
- Title: Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance
- Title(参考訳): MoEにおけるルーティング項目: 明示的なルーティング誘導による拡散変換器のスケーリング
- Authors: Yujie Wei, Shiwei Zhang, Hangjie Yuan, Yujin Han, Zhekai Chen, Jiayu Wang, Difan Zou, Xihui Liu, Yingya Zhang, Yu Liu, Hongming Shan,
- Abstract要約: Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
- 参考スコア(独自算出の注目度): 79.21541758879012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has emerged as a powerful paradigm for scaling model capacity while preserving computational efficiency. Despite its notable success in large language models (LLMs), existing attempts to apply MoE to Diffusion Transformers (DiTs) have yielded limited gains. We attribute this gap to fundamental differences between language and visual tokens. Language tokens are semantically dense with pronounced inter-token variation, while visual tokens exhibit spatial redundancy and functional heterogeneity, hindering expert specialization in vision MoE. To this end, we present ProMoE, an MoE framework featuring a two-step router with explicit routing guidance that promotes expert specialization. Specifically, this guidance encourages the router to partition image tokens into conditional and unconditional sets via conditional routing according to their functional roles, and refine the assignments of conditional image tokens through prototypical routing with learnable prototypes based on semantic content. Moreover, the similarity-based expert allocation in latent space enabled by prototypical routing offers a natural mechanism for incorporating explicit semantic guidance, and we validate that such guidance is crucial for vision MoE. Building on this, we propose a routing contrastive loss that explicitly enhances the prototypical routing process, promoting intra-expert coherence and inter-expert diversity. Extensive experiments on ImageNet benchmark demonstrate that ProMoE surpasses state-of-the-art methods under both Rectified Flow and DDPM training objectives. Code and models will be made publicly available.
- Abstract(参考訳): Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
大きな言語モデル(LLM)で顕著な成功を収めたにもかかわらず、既存のDiffusion Transformers(DiT)にMoEを適用しようとする試みでは、利益は限られている。
このギャップは、言語と視覚トークンの根本的な違いに起因しています。
言語トークンは意味的に多様であり、視覚トークンは空間的冗長性と機能的不均一性を示し、視覚の専門化を妨げる。
この目的のために、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを提案する。
具体的には、このガイダンスにより、ルータは、条件付きおよび条件なしの集合を、それらの機能的役割に応じて条件付きルーティングを介して分割し、意味コンテンツに基づいて学習可能なプロトタイプを用いて、条件付き画像トークンの割り当てを洗練させる。
さらに、原型的ルーティングによって実現された潜在空間における類似性に基づくエキスパートアロケーションは、明示的なセマンティックガイダンスを組み込むための自然なメカニズムを提供する。
そこで本研究では,プロトタイプなルーティングプロセスを明確に拡張し,専門家間のコヒーレンスや専門家間の多様性を促進できるルーティングコントラスト損失を提案する。
ImageNetベンチマークの大規模な実験によると、ProMoEはRectified FlowとDDPMトレーニングの両方の目標の下で最先端のメソッドを超越している。
コードとモデルは公開されます。
関連論文リスト
- UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - RouteMark: A Fingerprint for Intellectual Property Attribution in Routing-based Model Merging [69.2230254959204]
我々は,統合されたMoEモデルにおけるIP保護のためのフレームワークであるRouteMarkを提案する。
我々の重要な洞察は、タスク固有の専門家は、探索入力の下で安定かつ独特なルーティング行動を示すことである。
属性と改ざん検出のために,類似性に基づくマッチングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-08-03T14:51:58Z) - Long-Tailed Distribution-Aware Router For Mixture-of-Experts in Large Vision-Language Model [9.553346865898366]
視覚言語モデルにおけるモダリティ特異的ルーティングのための分布対応ルータを提案する。
視覚テールトークンのアクティベートした専門家の数を増やすことで、オーバーサンプリングのような戦略を導入する。
大規模なベンチマーク実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2025-07-02T04:38:12Z) - Improving Routing in Sparse Mixture of Experts with Graph of Tokens [32.46693871593765]
確率的グラフィカルモデル(PGM)の観点からSMOE(Sparse Mixture of Experts)の限界を明らかにする。
本稿では,専門家選択時のトークン間の相互作用を考慮した新しい類似性認識(S)MoEを提案する。
我々は、様々なタスクやドメインでモデルを実証的に検証し、ルーティングのゆらぎを低減するための大幅な改善を示す。
論文 参考訳(メタデータ) (2025-05-01T18:44:20Z) - Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts [33.39800923804871]
我々は、フレキシブルなルーティング戦略を持つ拡散変圧器のための新しいMoEモデルであるRace-DiT、Expert Raceを紹介する。
トークンとエキスパートが競争し、上位候補を選択することによって、モデルはエキスパートをクリティカルトークンに動的に割り当てることを学ぶ。
論文 参考訳(メタデータ) (2025-03-20T11:45:08Z) - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。
ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。
このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文 参考訳(メタデータ) (2025-03-18T17:57:07Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - StableMoE: Stable Routing Strategy for Mixture of Experts [109.0602120199226]
Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。
本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。
その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-18T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。