論文の概要: DirMoE: Dirichlet-routed Mixture of Experts
- arxiv url: http://arxiv.org/abs/2602.09001v1
- Date: Mon, 09 Feb 2026 18:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.43132
- Title: DirMoE: Dirichlet-routed Mixture of Experts
- Title(参考訳): DirMoE: Dirichlet-routed Mixture of Experts
- Authors: Amirhossein Vahidi, Hesam Asadollahzadeh, Navid Akhavan Attar, Marie Moullet, Kevin Ly, Xingyi Yang, Mohammad Lotfollahi,
- Abstract要約: Mixture-of-Experts (MoE)モデルは大規模言語モデルでは例外的な性能を示した。
既存のルータは、通常、微分不可能なTop-$k$+Softmaxに依存し、パフォーマンスとスケーラビリティを制限している。
ディリクレ変分オートエンコーダフレームワーク上に構築された,新しいエンドツーエンドの微分可能なルーティング機構であるDirichlet-Routed MoEを紹介する。
- 参考スコア(独自算出の注目度): 26.759827562919725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models have demonstrated exceptional performance in large-scale language models. Existing routers typically rely on non-differentiable Top-$k$+Softmax, limiting their performance and scalability. We argue that two distinct decisions, which experts to activate and how to distribute expert contributions among them, are conflated in standard Top-$k$+Softmax. We introduce Dirichlet-Routed MoE (DirMoE), a novel end-to-end differentiable routing mechanism built on a Dirichlet variational autoencoder framework. This design fundamentally disentangles the core routing problems: expert selection, modeled by a Bernoulli component, and expert contribution among chosen experts, handled by a Dirichlet component. The entire forward pass remains fully differentiable through the use of Gumbel-Sigmoid relaxation for the expert selection and implicit reparameterization for the Dirichlet distribution. Our training objective, a variational ELBO, includes a direct sparsity penalty that precisely controls the number of active experts in expectation, alongside a schedule for key hyperparameters that guides the model from an exploratory to a definitive routing state. Moreover, our DirMoE router matches or exceeds other methods while improving expert specialization.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは大規模言語モデルでは例外的な性能を示した。
既存のルータは、通常、微分不可能なTop-$k$+Softmaxに依存し、パフォーマンスとスケーラビリティを制限している。
我々は、専門家がアクティベートし、専門家の貢献を分配する方法の2つの異なる決定が、標準のTop-$k$+Softmaxで混同されていると主張している。
本稿では,Dirichlet-Routed MoE (DirMoE)を紹介した。
この設計は、エキスパート選択(Bernoulliコンポーネントによってモデル化される)と、ディリクレコンポーネントによって処理される選ばれた専門家の間でのエキスパートコントリビューション(Expert Contribution)である。
フォワードパス全体は、専門家選択のためのガンベル・シグモイド緩和とディリクレ分布の暗黙的な再パラメータ化によって、完全に微分可能である。
我々のトレーニング目標である変動型ELBOは、探索から決定的なルーティング状態へモデルを誘導するキーハイパーパラメーターのスケジュールとともに、期待中のアクティブな専門家の数を正確に制御する直接的なスパーシリティペナルティを含む。
さらに、我々のDirMoEルータは専門家の専門性を改善しながら、他の手法と一致したり、超えたりしています。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - The Illusion of Specialization: Unveiling the Domain-Invariant "Standing Committee" in Mixture-of-Experts Models [18.428606280260187]
エキスパートモデルの混合は、スパースルーティングによってドメインの特殊化を実現すると広く仮定されている。
我々は,個別の専門家ではなく,専門家グループレベルでのルーティング行動を分析するフレームワークであるCOMMITTEEAUDITを紹介する。
私たちは、スタンドング委員会が、ドメイン、レイヤ、およびルーティング予算をまたいだルーティングマスの大部分を一貫して捉えていることに気付きました。
論文 参考訳(メタデータ) (2026-01-06T21:29:45Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts [24.0422448103907]
LD-MoLEはLearningable Dynamic routing mechanism for Mixture of LoRA Expertsを提案する。
我々の設計では、異なる層で各トークンに対してアクティベートする専門家の数を適応的に決定できる。
提案手法は,優れた性能を実現するとともに,トークン依存型およびレイヤワイドのエキスパートアロケーションを学習する能力も示す。
論文 参考訳(メタデータ) (2025-09-30T02:38:10Z) - EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。
MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。
専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。
ルータの剛性は 専門家の選択に 静的リニアルータが 広く使われていることに由来する
論文 参考訳(メタデータ) (2025-05-28T08:38:39Z) - Convergence Rates for Softmax Gating Mixture of Experts [78.3687645289918]
機械学習モデルの効率性とスケーラビリティを向上するための効果的なフレームワークとして、Mixture of Expert (MoE)が登場した。
MoEの成功の中心は、適応的なソフトマックスゲーティングメカニズムであり、各専門家の入力に対する関連性を決定する責任を負い、それぞれの重みを動的に専門家に割り当てる。
標準ソフトマックスゲーティングまたはその変種を備えたMoEの下で,パラメータ推定と専門家推定の収束解析を行い,密度とスパースゲーティングと階層ソフトマックスゲーティングを含む。
論文 参考訳(メタデータ) (2025-03-05T06:11:24Z) - Autonomy-of-Experts Models [34.82103329222486]
我々は,専門家が自己選択して入力を処理する,新しいMoEパラダイムを提案する。
AoEは、専門家がトークンを効果的に処理する能力を知っているという洞察に基づいている。
トップレベルの専門家だけがフォワードパスを進み、他の専門家は中止します。
論文 参考訳(メタデータ) (2025-01-22T18:37:08Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。