論文の概要: Holmes: Towards Distributed Training Across Clusters with Heterogeneous
NIC Environment
- arxiv url: http://arxiv.org/abs/2312.03549v2
- Date: Thu, 7 Dec 2023 09:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 11:23:10.788818
- Title: Holmes: Towards Distributed Training Across Clusters with Heterogeneous
NIC Environment
- Title(参考訳): Holmes: 異種NIC環境下でのクラスタ間の分散トレーニングを目指す
- Authors: Fei Yang, Shuang Peng, Ning Sun, Fangyu Wang, Ke Tan, Fu Wu, Jiezhong
Qiu, Aimin Pan
- Abstract要約: GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。
これらのモデルのトレーニングには多大な費用がかかり、数ヶ月間の連続運用には数万のGPUが必要になります。
このフレームワークは、不均一なNIC環境上で、慎重に構築されたデータとモデル並列化戦略を利用する。
- 参考スコア(独自算出の注目度): 10.349121926910879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated
remarkable accuracy in a wide range of tasks. However, training these models
can incur significant expenses, often requiring tens of thousands of GPUs for
months of continuous operation. Typically, this training is carried out in
specialized GPU clusters equipped with homogeneous high-speed Remote Direct
Memory Access (RDMA) network interface cards (NICs). The acquisition and
maintenance of such dedicated clusters is challenging. Current LLM training
frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on
optimizing training within homogeneous cluster settings. In this paper, we
introduce Holmes, a training framework for LLMs that employs thoughtfully
crafted data and model parallelism strategies over the heterogeneous NIC
environment. Our primary technical contribution lies in a novel scheduling
method that intelligently allocates distinct computational tasklets in LLM
training to specific groups of GPU devices based on the characteristics of
their connected NICs. Furthermore, our proposed framework, utilizing pipeline
parallel techniques, demonstrates scalability to multiple GPU clusters, even in
scenarios without high-speed interconnects between nodes in distinct clusters.
We conducted comprehensive experiments that involved various scenarios in the
heterogeneous NIC environment. In most cases, our framework achieves
performance levels close to those achievable with homogeneous RDMA-capable
networks (InfiniBand or RoCE), significantly exceeding training efficiency
within the pure Ethernet environment. Additionally, we verified that our
framework outperforms other mainstream LLM frameworks under heterogeneous NIC
environment in terms of training efficiency and can be seamlessly integrated
with them.
- Abstract(参考訳): GPT-3、OPT、LLaMAのような大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な精度を示している。
しかし、これらのモデルのトレーニングにはかなりのコストがかかり、数ヶ月の連続運用には数万のgpuが必要となる。
通常、このトレーニングは、均一な高速リモートダイレクトメモリアクセス(RDMA)ネットワークインターフェースカード(NIC)を備えた専用GPUクラスタで実行される。
このような専用クラスタの獲得とメンテナンスは困難である。
現在のLLMトレーニングフレームワークであるMegatron-LMやMegatron-DeepSpeedは、主に同種クラスタ設定でのトレーニングの最適化に重点を置いている。
本稿では,不均一なNIC環境におけるデータとモデル並列化戦略を念頭に構築したLLMのトレーニングフレームワークであるHolmesを紹介する。
我々の主な技術的貢献は、LLMトレーニングにおける異なる計算タスクレットを、その接続NICの特性に基づいて特定のGPUデバイス群にインテリジェントに割り当てる新しいスケジューリング手法である。
さらに、パイプライン並列技術を利用した提案フレームワークでは、異なるクラスタ内のノード間の高速な相互接続のないシナリオにおいても、複数のGPUクラスタへのスケーラビリティを示す。
我々は異種NIC環境における様々なシナリオを含む包括的実験を行った。
ほとんどの場合、本フレームワークはRDMA対応ネットワーク(InfiniBandまたはRoCE)で達成可能な性能レベルに近い性能を達成し、純粋なイーサネット環境におけるトレーニング効率を大幅に上回る。
さらに,我々のフレームワークが,トレーニング効率の点で異種nic環境下で他の主流のllmフレームワークよりも優れており,それらをシームレスに統合できることを確認した。
関連論文リスト
- WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - MP-SL: Multihop Parallel Split Learning [2.7716102039510564]
Multihop Parallel SL (MP-SL) は、リソース制約されたデバイスの関与を促進するために設計された、モジュール式かつ機械学習・アズ・ア・サービス(ML)フレームワークである。
MP-SLはマルチホップParallel SLベースのトレーニングをサポートする。複数のパーツに分割し、パイプライン方式で複数の計算ノードを使用する。
論文 参考訳(メタデータ) (2024-01-31T22:09:40Z) - Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable
Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文 参考訳(メタデータ) (2023-05-31T00:34:15Z) - Hierarchical Personalized Federated Learning Over Massive Mobile Edge
Computing Networks [95.39148209543175]
大規模MECネットワーク上でPFLをデプロイするアルゴリズムである階層型PFL(HPFL)を提案する。
HPFLは、最適帯域割り当てを共同で決定しながら、トレーニング損失最小化とラウンドレイテンシ最小化の目的を組み合わせる。
論文 参考訳(メタデータ) (2023-03-19T06:00:05Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Multi-Edge Server-Assisted Dynamic Federated Learning with an Optimized
Floating Aggregation Point [51.47520726446029]
協調エッジ学習(CE-FL)は、分散機械学習アーキテクチャである。
CE-FLの過程をモデル化し,分析訓練を行った。
実世界のテストベッドから収集したデータを用いて,本フレームワークの有効性を示す。
論文 参考訳(メタデータ) (2022-03-26T00:41:57Z) - Semi-Decentralized Federated Edge Learning for Fast Convergence on Non-IID Data [14.269800282001464]
フェデレーションエッジラーニング(FEEL)は、クラウドベースの機械学習ソリューションにおいて、大きな通信遅延を低減する効果的なアプローチとして登場した。
FEELの新しい枠組み、すなわち半分散型フェデレーションエッジラーニング(SD-FEEL)について検討する。
異なるエッジクラスタにまたがるモデルアグリゲーションを可能にすることで、SD-FEELはトレーニングのレイテンシを低減できるFEELのメリットを享受できる。
論文 参考訳(メタデータ) (2021-04-26T16:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。