論文の概要: The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
- arxiv url: http://arxiv.org/abs/2602.08019v1
- Date: Sun, 08 Feb 2026 15:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.931336
- Title: The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
- Title(参考訳): Sparse Mixture-of-Expertsの台頭:アルゴリズム基礎から分散アーキテクチャと垂直ドメインアプリケーションへの調査
- Authors: Dong Pan, Bingtao Li, Yongsheng Zheng, Jiren Ma, Victor Fei,
- Abstract要約: エキスパートの混合(MoE)アーキテクチャは、ディープラーニングモデルを同等のコストでより多くのパラメータに拡張するための強力なアプローチとして進化してきた。
MoEモデルはルーティングネットワークに基づいて専門家のサブセットのみを起動する。
MoEは、自然言語処理、コンピュータビジョン、および様々な水平領域におけるマルチモーダルなどの下流アプリケーションを強化するだけでなく、垂直領域にまたがる幅広い適用性を示す。
- 参考スコア(独自算出の注目度): 2.4589447945128455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable computation cost. As an important branch of large language model(LLM), MoE model only activate a subset of experts based on a routing network. This sparse conditional computation mechanism significantly improves computational efficiency, paving a promising path for greater scalability and cost-efficiency. It not only enhance downstream applications such as natural language processing, computer vision, and multimodal in various horizontal domains, but also exhibit broad applicability across vertical domains. Despite the growing popularity and application of MoE models across various domains, there lacks a systematic exploration of recent advancements of MoE in many important fields. Existing surveys on MoE suffer from limitations such as lack coverage or none extensively exploration of key areas. This survey seeks to fill these gaps. In this paper, Firstly, we examine the foundational principles of MoE, with an in-depth exploration of its core components-the routing network and expert network. Subsequently, we extend beyond the centralized paradigm to the decentralized paradigm, which unlocks the immense untapped potential of decentralized infrastructure, enables democratization of MoE development for broader communities, and delivers greater scalability and cost-efficiency. Furthermore we focus on exploring its vertical domain applications. Finally, we also identify key challenges and promising future research directions. To the best of our knowledge, this survey is currently the most comprehensive review in the field of MoE. We aim for this article to serve as a valuable resource for both researchers and practitioners, enabling them to navigate and stay up-to-date with the latest advancements.
- Abstract(参考訳): スパース・ミックス・オブ・エキスパートズ(MoE)アーキテクチャは、ディープラーニングモデルを同等の計算コストでより多くのパラメータに拡張するための強力なアプローチとして進化してきた。
大規模言語モデル(LLM)の重要な分岐として、MoEモデルはルーティングネットワークに基づいて専門家のサブセットのみを活性化する。
このスパース条件計算機構は計算効率を著しく向上させ、スケーラビリティとコスト効率を高めるための有望な経路を整備する。
自然言語処理、コンピュータビジョン、マルチモーダルといった様々な水平領域における下流アプリケーションを強化するだけでなく、垂直領域にまたがる幅広い適用性を示す。
様々な領域にまたがるMoEモデルの普及と応用にもかかわらず、多くの重要な分野におけるMoEの最近の進歩に関する体系的な調査は欠如している。
MoEに関する既存の調査は、カバー範囲の不足や、重要な領域の広範囲にわたる探索など、制限に悩まされている。
この調査はこれらのギャップを埋めようとしている。
本稿では,まず,そのコアコンポーネントであるルーティングネットワークとエキスパートネットワークを詳細に検討し,MoEの基本原理について考察する。
その後、中央集権的なパラダイムから分散化パラダイムへと拡張し、分散化インフラストラクチャの未解決の可能性を解き放ち、より広いコミュニティ向けにMoE開発を民主化し、スケーラビリティとコスト効率を向上します。
さらに、垂直ドメインアプリケーションの探索にも焦点を合わせます。
最後に、重要な課題を特定し、将来的な研究の方向性を示す。
私たちの知る限りでは、この調査は現在、MoEの分野で最も包括的なレビューです。
本稿は,研究者と実践者の両方にとって貴重なリソースとして機能することを目指しており,最新の進歩をナビゲートし,最新に維持することを可能にする。
関連論文リスト
- General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications [7.414857515253022]
本稿では,ゲーティング機能,エキスパートネットワーク,ルーティング機構,トレーニング戦略,システム設計など,MoEの基本設計を紹介する。
次に,継続学習,メタ学習,マルチタスク学習,強化学習など,機械学習の重要なパラダイムにおけるMoEのアルゴリズム設計について検討する。
論文 参考訳(メタデータ) (2025-03-10T10:08:55Z) - Low-Rank Adaptation for Foundation Models: A Comprehensive Review [56.341827242332194]
Low-Rank Adaptation (LoRA)は、これらの課題を緩和するための非常に有望なアプローチとして登場した。
この調査は、大規模な言語モデルから一般的な基礎モデルまで、LoRAテクニックの包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2024-12-31T09:38:55Z) - A Survey on Mixture of Experts in Large Language Models [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
普及しているにもかかわらず、MoEに関する文献の体系的かつ包括的なレビューは欠如している。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2024-06-26T16:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。