論文の概要: Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference
- arxiv url: http://arxiv.org/abs/2505.13345v1
- Date: Mon, 19 May 2025 16:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.751881
- Title: Occult: Optimizing Collaborative Communication across Experts for Accelerated Parallel MoE Training and Inference
- Title(参考訳): Occult: 並列MoEトレーニングと推論のための専門家間のコラボレーションコミュニケーションの最適化
- Authors: Shuqing Luo, Pingzhi Li, Jie Peng, Hanrui Wang, Yang, Zhao, Yu, Cao, Yu Cheng, Tianlong Chen,
- Abstract要約: 通信コストを削減するために,システムレベルのイノベーションとアルゴリズムレベルのイノベーションを提案する。
共同作業の比率を増大させることで,専門家の並列化を促進できることを示す。
私たちの設計では、通信コストを削減した正確な結果を提供するか、コラボレーションプルーニングによるコストを最小限に抑えるかのどちらかが可能です。
- 参考スコア(独自算出の注目度): 77.07591324890537
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-experts (MoE) architectures could achieve impressive computational efficiency with expert parallelism, which relies heavily on all-to-all communication across devices. Unfortunately, such communication overhead typically constitutes a significant portion of the total runtime, hampering the scalability of distributed training and inference for modern MoE models (consuming over $40\%$ runtime in large-scale training). In this paper, we first define collaborative communication to illustrate this intrinsic limitation, and then propose system- and algorithm-level innovations to reduce communication costs. Specifically, given a pair of experts co-activated by one token, we call them "collaborated", which comprises $2$ cases as intra- and inter-collaboration, depending on whether they are kept on the same device. Our pilot investigations reveal that augmenting the proportion of intra-collaboration can accelerate expert parallelism at scale. It motivates us to strategically optimize collaborative communication for accelerated MoE training and inference, dubbed Occult. Our designs are capable of either delivering exact results with reduced communication cost or controllably minimizing the cost with collaboration pruning, materialized by modified fine-tuning. Comprehensive experiments on various MoE-LLMs demonstrate that Occult can be faster than popular state-of-the-art inference or training frameworks (more than $1.5\times$ speed up across multiple tasks and models) with comparable or superior quality compared to the standard fine-tuning. Code is available at $\href{https://github.com/UNITES-Lab/Occult}{https://github.com/UNITES-Lab/Occult}$.
- Abstract(参考訳): Mixture-of-experts (MoE)アーキテクチャは、すべてのデバイス間の通信に大きく依存する、専門家の並列性によって、驚くべき計算効率を実現することができる。
残念なことに、このような通信オーバーヘッドは、一般的に全ランタイムのかなりの部分を占め、分散トレーニングのスケーラビリティとモダンなMoEモデルの推論を妨げます(大規模なトレーニングでは、40 %以上のランタイムを消費します)。
本稿では、まず、この本質的な制限を説明するために協調コミュニケーションを定義し、次に、通信コストを削減するためのシステムおよびアルゴリズムレベルの革新を提案する。
具体的には、1つのトークンで1つの専門家が共同でアクティベートされた場合、同じデバイス上に保持されているかどうかに応じて、2ドル(約2万2000円)のケースを共同作業として使用する「共同作業」と呼ぶ。
パイロット調査の結果,共同作業の比率を増大させることで,専門家の並列性を向上できることがわかった。
Occultと呼ばれる、迅速なMoEトレーニングと推論のために、協力的なコミュニケーションを戦略的に最適化する動機となります。
私たちの設計では、通信コストを削減した正確な結果を提供するか、調整された微調整によって実現したコラボレーションプルーニングによるコストを最小化するかのどちらかが可能です。
さまざまなMoE-LLMに関する総合的な実験は、Occultが一般的な最先端の推論やトレーニングフレームワーク(複数のタスクやモデルのスピードアップで1.5ドル以上)よりも高速で、標準の微調整と比べて同等または優れた品質を持つことを示した。
コードは$\href{https://github.com/UNITES-Lab/Occult}{https://github.com/UNITES-Lab/Occult}$で入手できる。
関連論文リスト
- Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts [8.80408909878008]
Mixture-of-experts (MoE) は、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。
既存の方法は、オーバーラップする計算でMoE層内の通信をパイプライン化することを提案している。
細粒度通信-計算オーバラップを最適化したMOEシステムであるCOMETを提案する。
論文 参考訳(メタデータ) (2025-02-27T06:36:45Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
並列戦略を重畳した新しいショートカット接続型MoE(ScMoE)アーキテクチャを提案する。
ScMoEは計算で70%から100%のオーバラップを可能にする。
ScMoEアーキテクチャに基づいて、メモリ制限推論を容易にする専門家のオフロード戦略をさらに実装する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - Cooperative Multi-Agent Reinforcement Learning: Asynchronous
Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。
本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。
我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:29:29Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Distributed Deep Learning in Open Collaborations [49.240611132653456]
協調学習に特化して設計された新しいアルゴリズムフレームワークを提案する。
現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T16:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。