論文の概要: Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2502.19811v3
- Date: Tue, 04 Mar 2025 09:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 13:46:35.452598
- Title: Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts
- Title(参考訳): Comet:Mixture-of-Expertsのための微粒な計算通信オーバーラップ
- Authors: Shulai Zhang, Ningxin Zheng, Haibin Lin, Ziheng Jiang, Wenlei Bao, Chengquan Jiang, Qi Hou, Weihao Cui, Size Zheng, Li-Wen Chang, Quan Chen, Xin Liu,
- Abstract要約: Mixture-of-experts (MoE) は、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。
既存の方法は、オーバーラップする計算でMoE層内の通信をパイプライン化することを提案している。
細粒度通信-計算オーバラップを最適化したMOEシステムであるCOMETを提案する。
- 参考スコア(独自算出の注目度): 8.80408909878008
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mixture-of-experts (MoE) has been extensively employed to scale large language models to trillion-plus parameters while maintaining a fixed computational cost. The development of large MoE models in the distributed scenario encounters the problem of large communication overhead. The inter-device communication of a MoE layer can occupy 47% time of the entire model execution with popular models and frameworks. Therefore, existing methods suggest the communication in a MoE layer to be pipelined with the computation for overlapping. However, these coarse grained overlapping schemes introduce a notable impairment of computational efficiency and the latency concealing is sub-optimal. To this end, we present COMET, an optimized MoE system with fine-grained communication-computation overlapping. Leveraging data dependency analysis and task rescheduling, COMET achieves precise fine-grained overlapping of communication and computation. Through adaptive workload assignment, COMET effectively eliminates fine-grained communication bottlenecks and enhances its adaptability across various scenarios. Our evaluation shows that COMET accelerates the execution of a single MoE layer by $1.96\times$ and for end-to-end execution, COMET delivers a $1.71\times$ speedup on average. COMET has been adopted in the production environment of clusters with ten-thousand-scale of GPUs, achieving savings of millions of GPU hours.
- Abstract(参考訳): Mixture-of-experts (MoE) は、計算コストを一定に保ちながら、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。
分散シナリオにおける大規模なMoEモデルの開発は、大きな通信オーバーヘッドの問題に直面する。
MoE層のデバイス間通信は、一般的なモデルやフレームワークによるモデル実行全体の47%の時間を占めることができる。
したがって、既存の手法では、重なり合う計算でMoE層内の通信をパイプライン化することを提案している。
しかし、これらの粗い粒度の重複スキームは計算効率の顕著な障害を生じさせ、遅延隠蔽は準最適である。
この目的のために,細粒度通信計算オーバラップによるMoE最適化システムであるCOMETを提案する。
データ依存分析とタスク再スケジューリングを活用することで、COMETは通信と計算の正確なオーバーラップを実現する。
適応的なワークロード割り当てにより、COMETは、細粒度の通信ボトルネックを効果的に排除し、さまざまなシナリオにまたがる適応性を高める。
我々の評価では、COMETは単一のMoE層の実行を1.96ドル、エンドツーエンドの実行では1.71ドル、平均で1.71ドルと高速化している。
COMETは10分の1のGPUを持つクラスタの運用環境で採用されており、数百万のGPU時間を節約している。
関連論文リスト
- Design Space Exploration of DMA based Finer-Grain Compute Communication Overlap [0.8763937152756086]
より微細な計算通信の重複をFiCCOと呼ぶ。
我々は,FiCCOがシャードレベルでのみ実行スケジュールの広い設計空間をオープンにしていることを示す。
次に、これらの非効率損失の詳細な特徴を提示し、FiCCOスケジュールの設計空間を提示し、最終的に共用非効率シグネチャでスケジュールをオーバーレイする。
論文 参考訳(メタデータ) (2025-12-11T02:43:27Z) - Edge Collaborative Gaussian Splatting with Integrated Rendering and Communication [69.23838350582764]
エッジ協調(ECO-GS)では,各ユーザが小さなGSモデルに切り替えて忠実さを保証し,遠隔大GSモデルで忠実さを保証できる。
低コストのレンダリングステータスとエッジパワー割り当てを協調的に最適化する統合通信(IRAC)を提案する。
論文 参考訳(メタデータ) (2025-10-26T15:33:29Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models [34.54482364155804]
本稿では,Multi-Instance Training(MIT),Adaptive Batched DiLoCo,スイッチモード機構を組み合わせた3段階の手法を提案する。
MITは個々のノードに対して、異なるモデルインスタンスを並列に複数の軽量なトレーニングストリームを実行することができる。
Adaptive Batched DiLoCoは、ローカルバッチサイズを動的に調整して、計算と通信のバランスをとる。
スイッチモードは、ハードウェアフレンドリな制限を超えて適応バッチサイズが大きくなると、グラデーションの蓄積をシームレスに導入する。
論文 参考訳(メタデータ) (2025-08-25T16:35:57Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - ISO: Overlap of Computation and Communication within Seqenence For LLM Inference [8.616769297336708]
本稿では,シーケンスレベルで動作する計算通信重複に対する新しい戦略を提案する。
30b/70bモデルを用いて実験を行った結果,効率が著しく向上した。
論文 参考訳(メタデータ) (2024-09-04T05:22:17Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoE(ScMoE)アーキテクチャを提案する。
ScMoEは計算で70%から100%のオーバラップを可能にする。
ScMoEアーキテクチャに基づいて、メモリ制限推論を容易にする専門家のオフロード戦略をさらに実装する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。