論文の概要: Improving Automatic Parallel Training via Balanced Memory Workload
Optimization
- arxiv url: http://arxiv.org/abs/2307.02031v1
- Date: Wed, 5 Jul 2023 05:28:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 15:02:28.777347
- Title: Improving Automatic Parallel Training via Balanced Memory Workload
Optimization
- Title(参考訳): balanced memory workload optimizationによる自動並列トレーニングの改善
- Authors: Yujie Wang, Youhe Jiang, Xupeng Miao, Fangcheng Fu, Xiaonan Nie, Bin
Cui
- Abstract要約: トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
- 参考スコア(独自算出の注目度): 22.387733879759207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have emerged as the leading approach for achieving
state-of-the-art performance across various application domains, serving as the
foundation for advanced large-scale deep learning (DL) models. However,
efficiently training these models across multiple GPUs remains a complex
challenge due to the abundance of parallelism options. Existing DL systems
either require manual efforts to design distributed training plans or limit
parallelism combinations to a constrained search space. In this paper, we
present Galvatron-BMW, a novel system framework that integrates multiple
prevalent parallelism dimensions and automatically identifies the most
efficient hybrid parallelism strategy. To effectively navigate this vast search
space, we employ a decision tree approach for decomposition and pruning based
on intuitive insights. We further utilize a dynamic programming search
algorithm to derive the optimal plan. Moreover, to improve resource utilization
and enhance system efficiency, we propose a bi-objective optimization workflow
that focuses on workload balance. Our evaluations on different Transformer
models demonstrate the capabilities of Galvatron-BMW in automating distributed
training under varying GPU memory constraints. Across all tested scenarios,
Galvatron-BMW consistently achieves superior system throughput, surpassing
previous approaches that rely on limited parallelism strategies.
- Abstract(参考訳): トランスフォーマーモデルは、様々なアプリケーション領域で最先端のパフォーマンスを達成するための主要なアプローチとして現れ、高度な大規模ディープラーニング(DL)モデルの基盤となっている。
しかし、並列性オプションが豊富であるため、複数のgpuでモデルを効率的にトレーニングすることは複雑な課題である。
既存のDLシステムは、分散トレーニング計画を設計するための手作業を必要とするか、制約された検索空間に並列性の組み合わせを制限する必要がある。
本稿では,複数の先行する並列性次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークGalvatron-BMWを提案する。
この広大な探索空間を効果的にナビゲートするために、直感的な洞察に基づく分解と刈り取りに決定木アプローチを用いる。
さらに,動的プログラム探索アルゴリズムを用いて最適計画の導出を行う。
さらに,資源利用率の向上とシステム効率の向上を目的として,ワークロードバランスに着目した2目的最適化ワークフローを提案する。
異なるトランスフォーマーモデルにおける評価結果から,gpuメモリ制約の異なる分散トレーニングの自動化におけるgalvatron-bmwの機能を示す。
全てのテストシナリオにおいて、Galvatron-BMWは、制限された並列性戦略に依存する以前のアプローチよりも優れたシステムスループットを一貫して達成している。
関連論文リスト
- ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Galvatron: Efficient Transformer Training over Multiple GPUs Using
Automatic Parallelism [25.928940638269534]
我々は、最も効率的なハイブリッド並列化戦略を自動的に見つけるフレームワークであるGalvatronを提案する。
Galvatronは常に、並列性に制限のある以前の作業と比べて、優れたシステムスループットを実現している。
論文 参考訳(メタデータ) (2022-11-25T03:45:31Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Colossal-AI: A Unified Deep Learning System For Large-Scale Parallel
Training [23.633810934134065]
Colossal-AIは、大規模モデルで最大2.76回のトレーニングスピードアップを達成することができる。
システムは、データ、パイプライン、テンソル、シーケンス並列化などの並列トレーニングメソッドをサポートする。
論文 参考訳(メタデータ) (2021-10-28T04:45:55Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for
DNN Workloads [11.646744408920764]
Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。
ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。
評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
論文 参考訳(メタデータ) (2020-07-08T12:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。