論文の概要: FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression
- arxiv url: http://arxiv.org/abs/2410.12707v1
- Date: Wed, 16 Oct 2024 16:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:10.500237
- Title: FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression
- Title(参考訳): FusionLLM: 適応圧縮付きジオ分散GPUのための分散LLMトレーニングシステム
- Authors: Zhenheng Tang, Xueze Kang, Yiming Yin, Xinglin Pan, Yuxin Wang, Xin He, Qiang Wang, Rongfei Zeng, Kaiyong Zhao, Shaohuai Shi, Amelie Chi Zhou, Bo Li, Bingsheng He, Xiaowen Chu,
- Abstract要約: 分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
- 参考スコア(独自算出の注目度): 55.992528247880685
- License:
- Abstract: To alleviate hardware scarcity in training large deep neural networks (DNNs), particularly large language models (LLMs), we present FusionLLM, a decentralized training system designed and implemented for training DNNs using geo-distributed GPUs across different computing clusters or individual devices. Decentralized training faces significant challenges regarding system design and efficiency, including: 1) the need for remote automatic differentiation (RAD), 2) support for flexible model definitions and heterogeneous software, 3) heterogeneous hardware leading to low resource utilization or the straggler problem, and 4) slow network communication. To address these challenges, in the system design, we represent the model as a directed acyclic graph of operators (OP-DAG). Each node in the DAG represents the operator in the DNNs, while the edge represents the data dependency between operators. Based on this design, 1) users are allowed to customize any DNN without caring low-level operator implementation; 2) we enable the task scheduling with the more fine-grained sub-tasks, offering more optimization space; 3) a DAG runtime executor can implement RAD withour requiring the consistent low-level ML framework versions. To enhance system efficiency, we implement a workload estimator and design an OP-Fence scheduler to cluster devices with similar bandwidths together and partition the DAG to increase throughput. Additionally, we propose an AdaTopK compressor to adaptively compress intermediate activations and gradients at the slowest communication links. To evaluate the convergence and efficiency of our system and algorithms, we train ResNet-101 and GPT-2 on three real-world testbeds using 48 GPUs connected with 8 Mbps~10 Gbps networks. Experimental results demonstrate that our system and method can achieve 1.45 - 9.39x speedup compared to baseline methods while ensuring convergence.
- Abstract(参考訳): 大規模深層ニューラルネットワーク(DNN)、特に大規模言語モデル(LLM)のトレーニングにおけるハードウェア不足を軽減するため、異なるコンピューティングクラスタや個々のデバイスにまたがるジオ分散GPUを用いて、DNNをトレーニングするために設計および実装された分散トレーニングシステムFusionLLMを提案する。
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
1)リモート自動分化(RAD)の必要性
2)フレキシブルモデル定義と異種ソフトウェアのサポート。
3)資源利用の低さやストラグラー問題につながる異種ハードウェア
4) ネットワーク通信が遅い。
これらの課題に対処するため、システム設計においては、このモデルを演算子の有向非巡回グラフ(OP-DAG)として表現する。
DAGの各ノードはDNNの演算子を表し、エッジは演算子間のデータ依存を表す。
この設計に基づいて。
1) 低レベルのオペレータ実装を気にすることなく,任意のDNNをカスタマイズすることができる。
2) よりきめ細かなサブタスクでタスクスケジューリングを可能とし、さらなる最適化空間を提供する。
3) DAGランタイムエグゼキュータは、一貫した低レベルのMLフレームワークバージョンを必要とすることなく、RADを実装することができる。
システム効率を向上させるため,作業負荷推定器を実装し,同様の帯域幅のデバイスをクラスタ化するためのOP-Fenceスケジューラを設計し,DAGを分割してスループットを向上させる。
さらに、最も遅い通信リンクにおいて中間活性化と勾配を適応的に圧縮するAdaTopK圧縮器を提案する。
システムとアルゴリズムの収束と効率を評価するために,8 Mbps〜10 Gbpsのネットワークに接続された48個のGPUを用いて,ResNet-101とGPT-2を実世界の3つのテストベッドで訓練する。
実験により,本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることが示された。
関連論文リスト
- OTOv3: Automatic Architecture-Agnostic Neural Network Training and
Compression from Structured Pruning to Erasing Operators [57.145175475579315]
このトピックは、構造化プルーニングからニューラルアーキテクチャサーチまで、さまざまなテクニックにまたがっている。
第3世代のOTOv3(Noth-Train-Once)を導入する。
我々は,構造化プルーニングとニューラルアーキテクチャ探索におけるOTOv3の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-15T00:22:55Z) - Accelerating Split Federated Learning over Wireless Communication
Networks [17.97006656280742]
我々は、連立学習(FL)の並列モデル学習機構と分割学習(SL)のモデル分割構造を組み合わせた分割学習(SFL)フレームワークを検討する。
システム遅延を最小限に抑えるために,分割点選択と帯域割り当ての連立問題を定式化する。
実験の結果,レイテンシ低減と精度向上における作業の優位性を実証した。
論文 参考訳(メタデータ) (2023-10-24T07:49:56Z) - DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms [5.970091958678456]
我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。
複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
論文 参考訳(メタデータ) (2023-07-31T19:46:49Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Expediting Distributed DNN Training with Device Topology-Aware Graph
Deployment [18.021259939659874]
TAGは、最適化されたDNNトレーニンググラフとそのデバイストポロジへのデプロイを導出する自動システムである。
既存のスキームと比較して最大4.56倍のトレーニングスピードアップを実現可能であることを示す。
論文 参考訳(メタデータ) (2023-02-13T06:30:24Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。