論文の概要: DOT-MoE: Differentiable Optimal Transport for MoEfication
- arxiv url: http://arxiv.org/abs/2606.01666v1
- Date: Mon, 01 Jun 2026 04:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.972922
- Title: DOT-MoE: Differentiable Optimal Transport for MoEfication
- Title(参考訳): DOT-MoE:モエフィケーションのための微分可能な最適輸送
- Authors: Udbhav Bamba, Arnav Chavan, Aryamaan Thakur, Steve Teig, Deepak Gupta,
- Abstract要約: DOT-MoEは、高密度層の分解を微分可能な最適輸送問題として定式化する新しいフレームワークである。
我々は,DOT-MoEが構造化プルーニング,クラスタリング,ランダムスプリットベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 11.183649354845885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scaling of Large Language Models (LLMs) has driven significant performance gains but created substantial challenges in inference efficiency. While Mixture of Experts (MoEs) architectures address this by decoupling model size from inference cost, training MoEs from scratch is often unstable and compute intensive. Conversion of pre-trained dense models into sparse MoEs has emerged as an alternative solution; however, existing methods typically rely on heuristic neuron clustering or random splitting to partition the Feed-Forward Network (FFN) into experts. In this work, we propose DOT-MoE, a novel framework that formulates the decomposition of dense layers as a Differentiable Optimal Transport (DOT) problem. Instead of static heuristics, we model neuron assignment as a balanced transport problem, utilizing differentiable Sinkhorn-Knopp iterations to enforce strict expert capacity constraints. Furthermore, we utilize Straight-Through Estimators (STE) to jointly learn the discrete neuron-to-expert assignment and the token-to-expert routing policy end-to-end. Extensive experiments across multiple architectures and benchmarks demonstrate that DOT-MoE significantly outperforms structured pruning, heuristic clustering, and random-split baselines, retaining 90% of the original dense model's performance while reducing active parameters by 50%.
- Abstract(参考訳): LLM(Large Language Models)のスケーリングは、大幅なパフォーマンス向上をもたらしたが、推論効率において大きな課題を生み出した。
Mixture of Experts (MoEs)アーキテクチャは、モデルサイズを推論コストから切り離すことによってこの問題に対処する一方で、スクラッチからMoEをトレーニングすることは不安定で計算集約的であることが多い。
事前訓練された高密度モデルのスパースMOEへの変換は代替のソリューションとして現れているが、既存の手法は一般的に、フィードフォワードネットワーク(FFN)を専門家に分割するために、ヒューリスティックなニューロンクラスタリングやランダムな分割に依存している。
本研究では,高密度層の分解を微分可能な最適輸送(DOT)問題として定式化する新しいフレームワークであるDOT-MoEを提案する。
静的ヒューリスティックスの代わりに、我々は、Sinkhorn-Knoppの微分可能な反復を利用して、厳密な専門的容量制約を課すバランスの取れた輸送問題としてニューロンの割り当てをモデル化する。
さらに、STE(Straight-Through Estimator)を用いて、離散ニューロンからエキスパートへの割り当てとトークンから専門家へのルーティングポリシーをエンドツーエンドに学習する。
複数のアーキテクチャとベンチマークにわたる大規模な実験により、DOT-MoEは構造化プルーニング、ヒューリスティッククラスタリング、ランダムスプリットベースラインを著しく上回り、元の高密度モデルの性能の90%を維持し、活性パラメータを50%削減することを示した。
関連論文リスト
- ExpertWeaver: Unlocking the Inherent MoE in Dense LLMs with GLU Activation Patterns [68.61814799047956]
Mixture-of-Experts (MoE)は、スパース専門家のアクティベーションを通じて計算効率を保ちながら、モデル容量を効果的にスケールする。
ExpertWeaverは、ニューロンをアクティベーションパターンに従ってパーティショニングする、トレーニング不要のフレームワークで、共有専門家と特殊なルーティング専門家をレイヤ適応構成で構成する。
論文 参考訳(メタデータ) (2026-02-17T11:50:58Z) - Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - S'MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning [19.038272193170297]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
S'MoREは、残余のサブツリーを通して入力トークンをルーティングすることで、少数の低ランク行列をインスタンス化し組み立てることで、多くの専門家の能力をエミュレートする。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。