論文の概要: Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections
- arxiv url: http://arxiv.org/abs/2312.05181v2
- Date: Tue, 23 Apr 2024 14:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.450871
- Title: Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections
- Title(参考訳): Tenplex: 並列化可能なテンソルコレクションを用いたディープラーニングのための動的並列処理
- Authors: Marcel Wagenländer, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch,
- Abstract要約: ディープラーニングジョブは、トレーニングやハードウェアメンテナンス中のGPUアロケーションの変更を経験することができる。
現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオのサポートが欠如している。
Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。
- 参考スコア(独自算出の注目度): 5.354124527153157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) jobs use multi-dimensional parallelism, i.e. combining data, model, and pipeline parallelism, to use large GPU clusters efficiently. Long-running jobs may experience changes to their GPU allocation: (i) resource elasticity during training adds or removes GPUs; (ii) hardware maintenance may require redeployment on different GPUs; and (iii) GPU failures force jobs to run with fewer devices. Current DL frameworks tie jobs to a set of GPUs and thus lack support for these scenarios. In particular, they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Scalai, a state management library for DL systems that enables jobs to change their parallelism dynamically after the GPU allocation is updated at runtime. Scalai achieves this through a new abstraction, a parallelizable tensor collection (PTC), that externalizes the job state during training. After a GPU change, Scalai uses the PTC to transform the job state: the PTC repartitions the dataset state under data parallelism and exposes it to DL workers through a virtual file system; and the PTC obtains the model state as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, Scalai executes PTC transformations in parallel with minimum data movement between workers. Our experiments show that Scalai enables DL jobs to support dynamic parallelization with low overhead.
- Abstract(参考訳): ディープラーニング(DL)ジョブは多次元の並列性、すなわちデータ、モデル、パイプラインの並列性を組み合わせて、大きなGPUクラスタを効率的に使用する。
長時間稼働するジョブは、GPUアロケーションの変更を経験することがある。
i) トレーニング中のリソースの弾力性は、GPUを追加または削除する。
(ii)ハードウェアのメンテナンスには、異なるGPUの再デプロイが必要かもしれない。
3)GPUの故障により、少ないデバイスでジョブを実行せざるを得ない。
現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオをサポートしない。
特に、既に実行されているジョブの多次元並列性は、効率的でモデルに依存しない方法では変更できない。
Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。
Scalaiは、トレーニング中にジョブ状態を外部化する並列化可能なテンソルコレクション(PTC)という、新たな抽象化を通じてこれを実現している。
PTCはデータ並列性の下でデータセット状態を分割し、仮想ファイルシステムを通じてDLワーカーに公開し、PTCは分割されたチェックポイントとしてモデル状態を取得し、それらを新しい並列化設定を反映するように変換する。
効率性のために、Scalaiはワーカ間の最小データ移動と並行してPTC変換を実行する。
実験の結果、ScalaiはDLジョブを低オーバーヘッドで動的並列化をサポートできることがわかった。
関連論文リスト
- Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows [0.792324422300924]
我々は、GPU対応のワーカが協調して複雑なクエリを実行する分散システムにおけるMLクエリ処理について検討する。
このようなシステムでは、GPUメモリ管理とタスク配置の共スケジューリングが有望な機会である。
資源を効率的に利用しながら、仕事の遅延を軽減するためにこれらの機能を統一する新しいフレームワークであるCompassを提案する。
論文 参考訳(メタデータ) (2024-02-27T16:21:28Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads [86.62083829086393]
このプロセスプリミティブ(TPP、Processing Primitives)は、高い生産性を持つDeep Learning-Workloadの効率的でポータブルな実装を目指すプログラミング抽象化である。
TPPは、高次元テンソル上の複素作用素を構成するためにビルディングブロックとして使用できる2Dテンソル作用素(または仮想ISA)のコンパクトで汎用的な集合を定義する。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードによるアプローチの有効性を実証し,複数のプラットフォーム上での最先端実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:35:49Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - VirtualFlow: Decoupling Deep Learning Models from the Underlying
Hardware [9.461227523454188]
最先端のディープラーニングシステムは、モデルを基盤となるハードウェアと密に結合する。
ハードウェアからモデルを切り離すためにVirtualFlowを提案する。
トレーニングや推論の各ステップでは、入力データのバッチはハードウェアアクセラレータではなく仮想ノードに分割される。
論文 参考訳(メタデータ) (2020-09-20T20:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。