論文の概要: Decentralized Training of Foundation Models in Heterogeneous
Environments
- arxiv url: http://arxiv.org/abs/2206.01288v4
- Date: Wed, 21 Jun 2023 13:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 18:24:22.667633
- Title: Decentralized Training of Foundation Models in Heterogeneous
Environments
- Title(参考訳): 異種環境における基礎モデルの分散学習
- Authors: Binhang Yuan, Yongjun He, Jared Quincy Davis, Tianyi Zhang, Tri Dao,
Beidi Chen, Percy Liang, Christopher Re, Ce Zhang
- Abstract要約: GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
- 参考スコア(独自算出の注目度): 77.47261769795992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training foundation models, such as GPT-3 and PaLM, can be extremely
expensive, often involving tens of thousands of GPUs running continuously for
months. These models are typically trained in specialized clusters featuring
fast, homogeneous interconnects and using carefully designed software systems
that support both data parallelism and model/pipeline parallelism. Such
dedicated clusters can be costly and difficult to obtain. Can we instead
leverage the much greater amount of decentralized, heterogeneous, and
lower-bandwidth interconnected compute? Previous works examining the
heterogeneous, decentralized setting focus on relatively small models that can
be trained in a purely data parallel manner. State-of-the-art schemes for model
parallel foundation model training, such as Megatron, only consider the
homogeneous data center setting. In this paper, we present the first study of
training large foundation models with model parallelism in a decentralized
regime over a heterogeneous network. Our key technical contribution is a
scheduling algorithm that allocates different computational "tasklets" in the
training of foundation models to a group of decentralized GPU devices connected
by a slow heterogeneous network. We provide a formal cost model and further
propose an efficient evolutionary algorithm to find the optimal allocation
strategy. We conduct extensive experiments that represent different scenarios
for learning over geo-distributed devices simulated using real-world network
measurements. In the most extreme case, across 8 different cities spanning 3
continents, our approach is 4.8X faster than prior state-of-the-art training
systems (Megatron).
- Abstract(参考訳): GPT-3やPaLMといったトレーニング基盤モデルは非常に高価で、数ヶ月にわたって数万のGPUが継続的に動作している場合が多い。
これらのモデルは、高速で均一な相互接続を備えた特殊なクラスタで訓練され、データ並列性とモデル/パイプライン並列性の両方をサポートする慎重に設計されたソフトウェアシステムを使用する。
このような専用クラスタは費用がかかり、入手が困難である。
代わりに、より多くの分散化、異質化、低帯域幅の相互接続計算を利用できますか?
異質で分散化された設定を調査する以前の作業は、純粋にデータ並列でトレーニングできる比較的小さなモデルに重点を置いていた。
megatronのようなモデル並列基礎モデルのトレーニングのための最先端のスキームは、均質なデータセンターの設定のみを考慮する。
本稿では,異種ネットワーク上の分散環境において,モデル並列性を持つ大規模基礎モデルのトレーニングを初めて行った。
私たちの重要な技術的貢献は、基盤モデルのトレーニングにおいて異なる計算「タスクレット」を、遅い異種ネットワークで接続された分散gpuデバイスのグループに割り当てるスケジューリングアルゴリズムです。
形式的コストモデルを提供し,最適割当戦略を求めるための効率的な進化アルゴリズムを提案する。
実世界のネットワーク計測を模擬した地理的分散デバイス上での学習シナリオを示す広範な実験を行う。
最も極端なケースは、3大陸にまたがる8つの異なる都市で、我々のアプローチは従来の最先端のトレーニングシステム(Megatron)よりも4.8倍高速です。
関連論文リスト
- From promise to practice: realizing high-performance decentralized training [8.955918346078935]
ディープニューラルネットワークの分散トレーニングは、All-Reduceのような同期データ並列メソッドよりも理論的に優れたスケーラビリティのために大きな注目を集めている。
本稿では、All-Reduceトレーニングのスピードアップにつながる3つの重要な要因を特定し、いつ、どのように、どの程度の分散化によって、より短い実行時間が得られるかを決定するランタイムモデルを構築する。
論文 参考訳(メタデータ) (2024-10-15T19:04:56Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Supernet Training for Federated Image Classification under System
Heterogeneity [15.2292571922932]
本研究では,2つのシナリオ,すなわちフェデレーション・オブ・スーパーネット・トレーニング(FedSup)を考えるための新しい枠組みを提案する。
フェデレートラーニング(FL)のモデルアグリゲーション段階でのパラメータの平均化は、スーパーネットトレーニングにおけるウェイトシェアリングとどのように似ているかに着想を得ている。
本フレームワークでは,通信コストの削減とトレーニングオーバーヘッドの低減のために,放送段階のクライアントにサブモデルを送信することで,効率的なアルゴリズム(E-FedSup)を提案する。
論文 参考訳(メタデータ) (2022-06-03T02:21:01Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。