論文の概要: The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
- arxiv url: http://arxiv.org/abs/2602.08019v1
- Date: Sun, 08 Feb 2026 15:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.931336
- Title: The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
- Title(参考訳): Sparse Mixture-of-Expertsの台頭:アルゴリズム基礎から分散アーキテクチャと垂直ドメインアプリケーションへの調査
- Authors: Dong Pan, Bingtao Li, Yongsheng Zheng, Jiren Ma, Victor Fei,
- Abstract要約: エキスパートの混合(MoE)アーキテクチャは、ディープラーニングモデルを同等のコストでより多くのパラメータに拡張するための強力なアプローチとして進化してきた。
MoEモデルはルーティングネットワークに基づいて専門家のサブセットのみを起動する。
MoEは、自然言語処理、コンピュータビジョン、および様々な水平領域におけるマルチモーダルなどの下流アプリケーションを強化するだけでなく、垂直領域にまたがる幅広い適用性を示す。
- 参考スコア(独自算出の注目度): 2.4589447945128455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable computation cost. As an important branch of large language model(LLM), MoE model only activate a subset of experts based on a routing network. This sparse conditional computation mechanism significantly improves computational efficiency, paving a promising path for greater scalability and cost-efficiency. It not only enhance downstream applications such as natural language processing, computer vision, and multimodal in various horizontal domains, but also exhibit broad applicability across vertical domains. Despite the growing popularity and application of MoE models across various domains, there lacks a systematic exploration of recent advancements of MoE in many important fields. Existing surveys on MoE suffer from limitations such as lack coverage or none extensively exploration of key areas. This survey seeks to fill these gaps. In this paper, Firstly, we examine the foundational principles of MoE, with an in-depth exploration of its core components-the routing network and expert network. Subsequently, we extend beyond the centralized paradigm to the decentralized paradigm, which unlocks the immense untapped potential of decentralized infrastructure, enables democratization of MoE development for broader communities, and delivers greater scalability and cost-efficiency. Furthermore we focus on exploring its vertical domain applications. Finally, we also identify key challenges and promising future research directions. To the best of our knowledge, this survey is currently the most comprehensive review in the field of MoE. We aim for this article to serve as a valuable resource for both researchers and practitioners, enabling them to navigate and stay up-to-date with the latest advancements.
- Abstract(参考訳): スパース・ミックス・オブ・エキスパートズ(MoE)アーキテクチャは、ディープラーニングモデルを同等の計算コストでより多くのパラメータに拡張するための強力なアプローチとして進化してきた。
大規模言語モデル(LLM)の重要な分岐として、MoEモデルはルーティングネットワークに基づいて専門家のサブセットのみを活性化する。
このスパース条件計算機構は計算効率を著しく向上させ、スケーラビリティとコスト効率を高めるための有望な経路を整備する。
自然言語処理、コンピュータビジョン、マルチモーダルといった様々な水平領域における下流アプリケーションを強化するだけでなく、垂直領域にまたがる幅広い適用性を示す。
様々な領域にまたがるMoEモデルの普及と応用にもかかわらず、多くの重要な分野におけるMoEの最近の進歩に関する体系的な調査は欠如している。
MoEに関する既存の調査は、カバー範囲の不足や、重要な領域の広範囲にわたる探索など、制限に悩まされている。
この調査はこれらのギャップを埋めようとしている。
本稿では,まず,そのコアコンポーネントであるルーティングネットワークとエキスパートネットワークを詳細に検討し,MoEの基本原理について考察する。
その後、中央集権的なパラダイムから分散化パラダイムへと拡張し、分散化インフラストラクチャの未解決の可能性を解き放ち、より広いコミュニティ向けにMoE開発を民主化し、スケーラビリティとコスト効率を向上します。
さらに、垂直ドメインアプリケーションの探索にも焦点を合わせます。
最後に、重要な課題を特定し、将来的な研究の方向性を示す。
私たちの知る限りでは、この調査は現在、MoEの分野で最も包括的なレビューです。
本稿は,研究者と実践者の両方にとって貴重なリソースとして機能することを目指しており,最新の進歩をナビゲートし,最新に維持することを可能にする。
関連論文リスト
- Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [96.1872246747684]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。
LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。
ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文 参考訳(メタデータ) (2025-07-15T17:59:59Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Taming the Titans: A Survey of Efficient LLM Inference Serving [33.65474967178607]
ジェネレーティブAIのための大規模言語モデル(LLM)は目覚ましい進歩を遂げた。
大量のパラメータによって引き起こされるメモリオーバーヘッドは、アテンション機構の高い計算要求と相まって、大きな課題を生じさせる。
地すべりの研究による最近の進歩は、この分野の進歩を著しく加速している。
論文 参考訳(メタデータ) (2025-04-28T12:14:02Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications [7.414857515253022]
本稿では,ゲーティング機能,エキスパートネットワーク,ルーティング機構,トレーニング戦略,システム設計など,MoEの基本設計を紹介する。
次に,継続学習,メタ学習,マルチタスク学習,強化学習など,機械学習の重要なパラダイムにおけるMoEのアルゴリズム設計について検討する。
論文 参考訳(メタデータ) (2025-03-10T10:08:55Z) - Low-Rank Adaptation for Foundation Models: A Comprehensive Review [56.341827242332194]
Low-Rank Adaptation (LoRA)は、これらの課題を緩和するための非常に有望なアプローチとして登場した。
この調査は、大規模な言語モデルから一般的な基礎モデルまで、LoRAテクニックの包括的なレビューを初めて提供する。
論文 参考訳(メタデータ) (2024-12-31T09:38:55Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - MoDEM: Mixture of Domain Expert Models [23.846823652305027]
大規模言語モデル(LLM)の性能と効率を向上させる新しい手法を提案する。
本稿では、BERTベースのルータを用いて、最も適切なドメインエキスパートモデルに入力プロンプトを指示するシステムを提案する。
本研究は,本手法が同等の大きさの汎用モデルを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-09T23:52:54Z) - A Survey on Mixture of Experts in Large Language Models [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
普及しているにもかかわらず、MoEに関する文献の体系的かつ包括的なレビューは欠如している。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2024-06-26T16:34:33Z) - A Survey of Resource-efficient LLM and Multimodal Foundation Models [22.23967603206849]
大規模言語モデル(LLM)、ビジョントランスフォーマー(ViT)、拡散、マルチモーダルモデルを含む大規模な基盤モデルは、機械学習ライフサイクル全体に革命をもたらしている。
しかしながら、これらのモデルが提供する汎用性と性能の大幅な進歩は、ハードウェアリソースの面でかなりのコストがかかる。
この調査は、アルゴリズム的側面とシステム的側面の両方を調べることで、そのような研究の重要さを掘り下げるものである。
論文 参考訳(メタデータ) (2024-01-16T03:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。