論文の概要: HybridEP: Scaling Expert Parallelism to Cross-Datacenter Scenario via Hybrid Expert/Data Transmission
- arxiv url: http://arxiv.org/abs/2510.19470v1
- Date: Wed, 22 Oct 2025 11:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.719948
- Title: HybridEP: Scaling Expert Parallelism to Cross-Datacenter Scenario via Hybrid Expert/Data Transmission
- Title(参考訳): HybridEP: エキスパート並列性からハイブリッドエキスパート/データトランスミッションによるクロスデータセンタシナリオへの拡張
- Authors: Weihao Yang, Hao Huang, Donglei Wu, Ningke Li, Yanqi Pan, Qiyang Zheng, Wen Xia, Shiyi Li, Qiang Wang,
- Abstract要約: MoEのエキスパート並列性(EP)は、DC帯域幅が制限されているため、大きなスケーラビリティの問題に直面している。
制約帯域幅でEPを最適化するモデリング誘導フレームワークであるHybridEPを提案する。
実験の結果,HybridEPは既存のMoEトレーニングシステムを最大5.6倍の帯域幅で性能が向上していることがわかった。
- 参考スコア(独自算出の注目度): 7.655022046621151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) has become a popular architecture for scaling large models. However, the rapidly growing scale outpaces model training on a single DC, driving a shift toward a more flexible, cross-DC training paradigm. Under this, Expert Parallelism (EP) of MoE faces significant scalability issues due to the limited cross-DC bandwidth. Specifically, existing EP optimizations attempt to overlap data communication and computation, which has little benefit in low-bandwidth scenarios due to a much longer data communication time. Therefore, the trends of cross-DC EP scaling is fast becoming a critical roadblock to the continued growth of MoE models. To address this, we propose HybridEP, a modeling-guided framework to optimize EP under constrained bandwidth. Our key idea is to dynamically transform the spatial placement of experts to reduce data communication traffic and frequency, thereby minimizing EP's communication overheads. However, it is non-trivial to find the optimal solution because it complicates the original communication pattern by mixing data and expert communication. We therefore build a stream-based model to determine the optimal transmission ratio. Guided by this, we incorporate two techniques: (1) domain-based partition to construct the mapping between hybrid patterns and specific communication topology at GPU level, and (2) parameter-efficient migration to further refine this topology by reducing expert transmission overhead and enlarging the domain size. Combining all these designs, HybridEP can be considered as a more general EP with better scalability. Experimental results show that HybridEP outperforms existing state-of-the-art MoE training systems by up to 5.6x under constrained bandwidth. We further compare HybridEP and EP on large-scale simulations. HybridEP achieves up to 1.45x speedup with 1k DCs under different bandwidths.
- Abstract(参考訳): Mixture-of-Experts (MoE) は大規模モデルをスケールするための一般的なアーキテクチャとなっている。
しかし、急速に拡大するスケールは、単一のDC上でのモデルトレーニングよりも優れており、より柔軟なクロスDCトレーニングパラダイムへのシフトを促している。
この中で、MoEのエキスパート並列性(EP)は、DCの帯域幅が限られているため、大きなスケーラビリティの問題に直面している。
具体的には、既存のEP最適化はデータ通信と計算の重複を図り、より長いデータ通信時間のために低帯域幅のシナリオではほとんど利点がない。
したがって、クロスDC EPスケーリングのトレンドは、MoEモデルの継続的な成長にとって、急速に重要な障害になりつつある。
これを解決するために,制約帯域幅でEPを最適化するモデリング誘導フレームワークであるHybridEPを提案する。
我々のキーとなる考え方は、専門家の空間配置を動的に変換し、データ通信のトラフィックと頻度を減らし、EPの通信オーバーヘッドを最小限に抑えることである。
しかし、データと専門家のコミュニケーションを混合することで、元のコミュニケーションパターンが複雑になるため、最適な解決策を見つけることは容易ではない。
そこで,最適な伝送比を決定するためのストリームベースモデルを構築した。
そこで我々は,(1)ハイブリッドパターンとGPUレベルでの特定通信トポロジのマッピングを構築するためのドメインベースパーティションと,(2)専門家の送信オーバーヘッドを低減し,ドメインサイズを大きくすることで,このトポロジをさらに洗練するためのパラメータ効率のマイグレーションという2つの手法を取り入れた。
これらすべての設計を組み合わせることで、HybridEPはスケーラビリティを向上したより一般的なEPとみなすことができる。
実験の結果,HybridEPは既存のMoEトレーニングシステムを最大5.6倍の帯域幅で性能が向上していることがわかった。
さらに,大規模シミュレーションにおいてHybridEPとEPを比較した。
HybridEPは1kのDCで最大1.45倍のスピードアップを実現している。
関連論文リスト
- MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates [24.81282608003312]
分散データ並列性を備えた大規模モデルのトレーニングには、労働者間の勾配の頻繁な通信が必要である。
頻繁な通信戦略(例えばローカルSGD)は、このオーバーヘッドを減少させるが、完全な同期DDPと比較してパフォーマンスのギャップを被ることが多い。
MT-DAOは,低速かつ高速に動く第1モータや,異なる時間スケールでの更新ダイナミクスを追従する勾配系である。
論文 参考訳(メタデータ) (2025-10-06T20:37:57Z) - Context-Aware Hybrid Routing in Bluetooth Mesh Networks Using Multi-Model Machine Learning and AODV Fallback [0.06445605125467573]
Bluetoothベースのメッシュネットワークは、緊急およびリソース制約のあるシナリオにおけるオフライン通信のための有望なインフラストラクチャを提供する。
Adhoc On-Demand Distance Vector (AODV)のような従来のルーティング戦略は、しばしば混雑と動的トポロジ的変化の下で劣化する。
本研究では,教師付き機械学習によりAODVを増強し,ホップ選択を改善するハイブリッドなインテリジェントルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-25T19:49:24Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。
mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。
特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文 参考訳(メタデータ) (2025-05-03T06:23:18Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - SMILE: Scaling Mixture-of-Experts with Efficient Bi-level Routing [47.11171833082974]
我々は、異種ネットワーク帯域を利用するSMILEを導入し、シングルステップのルーティングをバイレベルルーティングに分割する。
提案手法は, コンバージェンス速度を損なうことなく, コロッサルクリーンクローリングコーパスのプリトレーニングスループットにおいて, スイッチ変換器の2.5倍の高速化が得られることを示す。
論文 参考訳(メタデータ) (2022-12-10T03:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。