論文の概要: Routing-Free Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2604.00801v1
- Date: Wed, 01 Apr 2026 12:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.973572
- Title: Routing-Free Mixture-of-Experts
- Title(参考訳): ルーティングフリー・ミックス・オブ・エクスプロート
- Authors: Yilun Liu, Jinru Han, Sikuan Yan, Volker Tresp, Yunpu Ma,
- Abstract要約: 本研究では、外部ルータ、Softmax、Top-K、ロードバランシングを含むハードコードな集中型設計を不要とするルーティングフリーMoEを提案する。
エキスパートバランスとトークンバランスの両方の目的を同時に最適化するために、統一的な適応型ロードバランシングフレームワークを導入します。
- 参考スコア(独自算出の注目度): 25.578391614099004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard Mixture-of-Experts (MoE) models rely on centralized routing mechanisms that introduce rigid inductive biases. We propose Routing-Free MoE which eliminates any hard-coded centralized designs including external routers, Softmax, Top-K and load balancing, instead encapsulating all activation functionalities within individual experts and directly optimized through continuous gradient flow, enabling each expert to determine its activation entirely on its own. We introduce a unified adaptive load-balancing framework to simultaneously optimize both expert-balancing and token-balancing objectives through a configurable interpolation, allowing flexible and customizable resource allocation. Extensive experiments show that Routing-Free MoE can consistently outperform baselines with better scalability and robustness. We analyze its behavior in detail and offer insights that may facilitate future MoE design ad optimization.
- Abstract(参考訳): Standard Mixture-of-Experts (MoE)モデルは、厳密な帰納バイアスをもたらす集中的なルーティング機構に依存している。
本研究では,外部ルータ,Softmax,Top-K,ロードバランシングなどのハードコーディングされた集中設計を排除し,個々の専門家のすべてのアクティベーション機能をカプセル化し,連続的な勾配流を通じて直接最適化することで,各専門家が自身のアクティベーションを完全に決定できるルーティングフリーMoEを提案する。
適応型ロードバランシングフレームワークを導入し、設定可能な補間により専門家バランスとトークンバランスの両方の目的を同時に最適化し、フレキシブルでカスタマイズ可能なリソース割り当てを可能にする。
大規模な実験により、Routing-Free MoEは、より優れたスケーラビリティと堅牢性で、一貫してベースラインを上回ります。
我々は、その振る舞いを詳細に分析し、将来のMoEデザイン広告最適化を促進する洞察を提供する。
関連論文リスト
- CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning [97.4254365377865]
モバイルエージェントは、ハイブリッド機能推論を必要とするユーザ命令を自律的に実行することができる。
4つの異なる専門家からなる新しいエージェントアーキテクチャであるChannel-of-Mobile-Experts (CoME)を提案する。
実験の結果,CoME は AITZ と AMEX のデータセットにおいて,高密度移動エージェントや MoE メソッドよりも優れていた。
論文 参考訳(メタデータ) (2026-02-27T16:19:45Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - Controlled LLM Training on Spectral Sphere [76.60985966206746]
重み付けと更新の両方に厳密なモジュール単位のスペクトル制約を課す textbfSpectral Sphere アルゴリズム (SSO) を導入する。
我々は,MoEルータロードバランシングの改善,外乱抑制,厳密な制限付きアクティベーションなど,重要な実用的安定性の利点を観察した。
論文 参考訳(メタデータ) (2026-01-13T09:59:47Z) - FLEX-MoE: Federated Mixture-of-Experts with Load-balanced Expert Assignment [38.27527504479237]
Mixture-of-Experts (MoE)モデルは条件付き計算によってスケーラブルなニューラルネットワークを実現する。
このアプローチでは、トレーニングフィードバックを通じて、ローカルデータセットのエキスパート適合度を定量化する、クライアント-専門家適合度スコアを導入している。
3つの異なるデータセットに関する包括的実験により、提案したFLEX-MoEの優れた性能を示す。
論文 参考訳(メタデータ) (2025-12-28T20:32:13Z) - Sparsity-Controllable Dynamic Top-p MoE for Large Foundation Model Pre-training [30.589225478300023]
DTop-pは空間制御可能な動的Top-pルーティング機構である。
DTop-pはTop-kベースラインとTop-pベースラインの両方を一貫して上回ることを示す。
DTop-pは、専門家の粒度、専門家のキャパシティ、モデルサイズ、データセットサイズに関して、強力なスケーリング特性を示す。
論文 参考訳(メタデータ) (2025-12-16T01:28:57Z) - A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models [3.0247776995428945]
大規模なAIトレーニングでは、Sparse Mixture-of-Experts(s-MoE)レイヤによって、トークン当たりのエキスパートの小さなサブセットのみを活性化することで、スケーリングが可能になる。
本稿では,ALF-LB (Auxiliary-Loss-Free Load Balancing) 法を理論的に解析する枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-03T16:00:02Z) - Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts [19.707274733121412]
Sparse Mixture of Experts (sMoE)は、大規模な視覚言語モデルをスケールするための重要なアプローチとなっている。
本稿では、確率的混合モデルを利用して入力空間を分割する新しいルーティングフレームワークであるInput Domain Aware MoEを提案する。
ルーティング確率を分布の混合としてモデル化することにより、バランスの取れた利用を達成しつつ、専門家が明確な特殊化境界を構築できる。
論文 参考訳(メタデータ) (2025-10-18T11:01:03Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。