Fugu-MT 論文翻訳(概要): A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters

論文の概要: A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters

arxiv url: http://arxiv.org/abs/2403.16125v1
Date: Sun, 24 Mar 2024 12:43:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 17:25:57.758086
Title: A Codesign of Scheduling and Parallelization for Large Model Training in Heterogeneous Clusters
Title（参考訳）: 不均一クラスタにおける大規模モデル学習のためのスケジューリングと並列化の符号
Authors: Chunyu Xue, Weihao Cui, Han Zhao, Quan Chen, Shulai Zhang, Pengyu Yang, Jing Yang, Shaobo Li, Minyi Guo,
Abstract要約: 異種クラスタにおける適応並列性を持つ大規模モデルを効率的にスケジューリングする訓練システムであるCriusについて述べる。 Criusはジョブ完了時間を最大48.9%削減し、クラスタスループットを最大1.49倍改善した大規模モデルをスケジュールする。
参考スコア（独自算出の注目度）: 22.475103465355826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Joint consideration of scheduling and adaptive parallelism offers great opportunities for improving the training efficiency of large models on heterogeneous GPU clusters. However, integrating adaptive parallelism into a cluster scheduler expands the cluster scheduling space. The new space is the product of the original scheduling space and the parallelism exploration space of adaptive parallelism (also a product of pipeline, data, and tensor parallelism). The exponentially enlarged scheduling space and ever-changing optimal parallelism plan from adaptive parallelism together result in the contradiction between low-overhead and accurate performance data acquisition for efficient cluster scheduling. This paper presents Crius, a training system for efficiently scheduling multiple large models with adaptive parallelism in a heterogeneous cluster. Crius proposes a novel scheduling granularity called Cell. It represents a job with deterministic resources and pipeline stages. The exploration space of Cell is shrunk to the product of only data and tensor parallelism, thus exposing the potential for accurate and low-overhead performance estimation. Crius then accurately estimates Cells and efficiently schedules training jobs. When a Cell is selected as a scheduling choice, its represented job runs with the optimal parallelism plan explored. Experimental results show that Crius reduces job completion time by up to 48.9% and schedules large models with up to 1.49x cluster throughput improvement.
Abstract（参考訳）: スケジューリングと適応並列性の併用は、異種GPUクラスタ上の大規模モデルのトレーニング効率を向上させる大きな機会となる。しかし、クラスタスケジューラに適応並列性を統合することで、クラスタスケジューリングスペースが拡張される。新しい空間は、元のスケジューリング空間と適応並列性(パイプライン、データ、テンソル並列性の積でもある)の並列性探索空間の積である。適応並列性から指数関数的に拡大したスケジューリング空間と、常に変化する最適並列性プランは、高いオーバヘッドと効率的なクラスタスケジューリングのための正確なパフォーマンスデータ取得の矛盾をもたらす。本稿では、異種クラスタにおける適応並列性を持つ複数の大規模モデルを効率的にスケジューリングする訓練システムであるCriusについて述べる。 CriusはCellと呼ばれる新しいスケジューリングの粒度を提案している。これは決定論的リソースとパイプラインステージを持つ仕事を表している。セルの探索空間はデータとテンソル並列性のみの積に縮小され、精度と低オーバーヘッド性能の推定の可能性が露呈する。 CriusはCellsを正確に見積もり、トレーニングジョブを効率的にスケジュールする。セルがスケジューリング選択として選択されると、その代表されるジョブは最適な並列化計画によって実行される。実験の結果、Criusはジョブ完了時間を最大48.9%削減し、クラスタスループットを最大1.49倍改善した大規模モデルをスケジュールしている。

関連論文リスト

Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文参考訳（メタデータ） (2025-01-09T20:19:01Z)
Adaptive Batch Size Schedules for Distributed Training of Language Models with Data and Model Parallelism [17.006352664497122]
PyTorch Fully Shard Data Parallel を用いた実用的な実装を開発した。提案手法が一定のバッチサイズより優れていることを示す。また、このような適応型バッチサイズスケジュールについても理論的に保証する。
論文参考訳（メタデータ） (2024-12-30T17:55:28Z)
Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文参考訳（メタデータ） (2024-12-10T20:01:53Z)
Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文参考訳（メタデータ） (2024-01-03T13:07:07Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
SuperScaler: Supporting Flexible DNN Parallelization via a Unified Abstraction [17.82865339337427]
SuperScalerはフレキシブル並列化計画の設計と生成を容易にするシステムである。計画設計と生成を、モデル変換、時空間スケジューリング、データ依存保存という3つの逐次フェーズに明示的に定式化します。その結果、SuperScalerは経験的な並列化計画を生成するだけでなく、3.5倍のスピードアップを達成する新しい計画を構築することができる。
論文参考訳（メタデータ） (2023-01-21T17:47:55Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning [54.99749970495241]
Alpaは大規模なディープラーニング(DL)モデルのモデル並列トレーニングを自動化する。 Alpaはデータ、演算子、パイプライン並列性を統一する実行計画を生成する。特殊なシステムとは異なり、Alpaは手動設計の計画なしで異質なアーキテクチャやモデルを持つモデルに一般化する。
論文参考訳（メタデータ） (2022-01-28T10:13:35Z)
Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文参考訳（メタデータ） (2021-10-28T04:45:55Z)
An Accurate and Efficient Large-scale Regression Method through Best Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文参考訳（メタデータ） (2021-04-22T01:34:29Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。