論文の概要: Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections
- arxiv url: http://arxiv.org/abs/2312.05181v2
- Date: Tue, 23 Apr 2024 14:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.450871
- Title: Tenplex: Dynamic Parallelism for Deep Learning using Parallelizable Tensor Collections
- Title(参考訳): Tenplex: 並列化可能なテンソルコレクションを用いたディープラーニングのための動的並列処理
- Authors: Marcel Wagenländer, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch,
- Abstract要約: ディープラーニングジョブは、トレーニングやハードウェアメンテナンス中のGPUアロケーションの変更を経験することができる。
現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオのサポートが欠如している。
Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。
- 参考スコア(独自算出の注目度): 5.354124527153157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) jobs use multi-dimensional parallelism, i.e. combining data, model, and pipeline parallelism, to use large GPU clusters efficiently. Long-running jobs may experience changes to their GPU allocation: (i) resource elasticity during training adds or removes GPUs; (ii) hardware maintenance may require redeployment on different GPUs; and (iii) GPU failures force jobs to run with fewer devices. Current DL frameworks tie jobs to a set of GPUs and thus lack support for these scenarios. In particular, they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Scalai, a state management library for DL systems that enables jobs to change their parallelism dynamically after the GPU allocation is updated at runtime. Scalai achieves this through a new abstraction, a parallelizable tensor collection (PTC), that externalizes the job state during training. After a GPU change, Scalai uses the PTC to transform the job state: the PTC repartitions the dataset state under data parallelism and exposes it to DL workers through a virtual file system; and the PTC obtains the model state as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, Scalai executes PTC transformations in parallel with minimum data movement between workers. Our experiments show that Scalai enables DL jobs to support dynamic parallelization with low overhead.
- Abstract(参考訳): ディープラーニング(DL)ジョブは多次元の並列性、すなわちデータ、モデル、パイプラインの並列性を組み合わせて、大きなGPUクラスタを効率的に使用する。
長時間稼働するジョブは、GPUアロケーションの変更を経験することがある。
i) トレーニング中のリソースの弾力性は、GPUを追加または削除する。
(ii)ハードウェアのメンテナンスには、異なるGPUの再デプロイが必要かもしれない。
3)GPUの故障により、少ないデバイスでジョブを実行せざるを得ない。
現在のDLフレームワークはジョブをGPUのセットに結びつけるため、これらのシナリオをサポートしない。
特に、既に実行されているジョブの多次元並列性は、効率的でモデルに依存しない方法では変更できない。
Scalaiは、実行時にGPU割り当てが更新された後、ジョブが動的に並列性を変更することができるDLシステムのための状態管理ライブラリである。
Scalaiは、トレーニング中にジョブ状態を外部化する並列化可能なテンソルコレクション(PTC)という、新たな抽象化を通じてこれを実現している。
PTCはデータ並列性の下でデータセット状態を分割し、仮想ファイルシステムを通じてDLワーカーに公開し、PTCは分割されたチェックポイントとしてモデル状態を取得し、それらを新しい並列化設定を反映するように変換する。
効率性のために、Scalaiはワーカ間の最小データ移動と並行してPTC変換を実行する。
実験の結果、ScalaiはDLジョブを低オーバーヘッドで動的並列化をサポートできることがわかった。
関連論文リスト
- Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。
GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。
その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-11-19T08:09:18Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - Parallel $Q$-Learning: Scaling Off-policy Reinforcement Learning under
Massively Parallel Simulation [17.827002299991285]
強化学習は、大量のトレーニングデータを必要とするため、複雑なタスクに時間を要する。
アイザック・ギムのようなGPUベースのシミュレーションの最近の進歩は、コモディティGPU上で何千回もデータを収集している。
本稿では,PPOを壁面時間で上回る並列$Q$-Learning方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:59:37Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale
Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。
TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文 参考訳(メタデータ) (2021-02-16T07:34:32Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。