Fugu-MT 論文翻訳(概要): TENPLEX: Changing Resources of Deep Learning Jobs using Parallelizable Tensor Collections

論文の概要: TENPLEX: Changing Resources of Deep Learning Jobs using Parallelizable Tensor Collections

arxiv url: http://arxiv.org/abs/2312.05181v1
Date: Fri, 8 Dec 2023 17:08:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 14:23:57.155005
Title: TENPLEX: Changing Resources of Deep Learning Jobs using Parallelizable Tensor Collections
Title（参考訳）: tenplex:並列化型テンソルコレクションを用いたディープラーニングジョブのリソース変更
Authors: Marcel Wagenl\"ander, Guo Li, Bo Zhao, Luo Mai, Peter Pietzuch
Abstract要約: Tenplexはディープラーニング(DL)ジョブのためのライブラリで、ジョブが実行時にGPU割り当てとジョブ並列性を変更することができる。 Tenplexは、トレーニング中のDLジョブ状態を並列化可能なテンソルコレクションとして外部化することで、これを実現する。実験により、TenplexはDLジョブを低オーバーヘッドで動的並列化をサポートできることが判明した。
参考スコア（独自算出の注目度）: 5.354124527153157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning (DL) jobs use multi-dimensional parallelism, i.e they combine data, model, and pipeline parallelism, to use large GPU clusters efficiently. This couples jobs tightly to a set of GPU devices, but jobs may experience changes to the device allocation: (i) resource elasticity during training adds or removes devices; (ii) hardware maintenance may require redeployment on different devices; and (iii) device failures force jobs to run with fewer devices. Current DL frameworks lack support for these scenarios, as they cannot change the multi-dimensional parallelism of an already-running job in an efficient and model-independent way. We describe Tenplex, a state management library for DL frameworks that enables jobs to change the GPU allocation and job parallelism at runtime. Tenplex achieves this by externalizing the DL job state during training as a parallelizable tensor collection (PTC). When the GPU allocation for the DL job changes, Tenplex uses the PTC to transform the DL job state: for the dataset state, Tenplex repartitions it under data parallelism and exposes it to workers through a virtual file system; for the model state, Tenplex obtains it as partitioned checkpoints and transforms them to reflect the new parallelization configuration. For efficiency, these PTC transformations are executed in parallel with a minimum amount of data movement between devices and workers. Our experiments show that Tenplex enables DL jobs to support dynamic parallelization with low overhead.
Abstract（参考訳）: ディープラーニング(DL)ジョブは多次元の並列処理、すなわちデータ、モデル、パイプラインの並列処理を組み合わせて、大きなGPUクラスタを効率的に使用する。これは、一連のGPUデバイスにジョブを密に結合するが、ジョブはデバイス割り当ての変更を経験する可能性がある。一訓練中の資源の弾力性、装置の追加又は除去 (二ハードウェアのメンテナンスは、異なる装置に再配備することを必要とする場合がある。) (iii)装置故障は、少ない装置でジョブを実行することを強制する。現在のdlフレームワークは、既に実行されているジョブの多次元並列性を効率的でモデルに依存しない方法で変更できないため、これらのシナリオをサポートしていない。 TenplexはDLフレームワークのための状態管理ライブラリで、ジョブが実行時にGPU割り当てとジョブ並列性を変更することができる。 Tenplexは、トレーニング中のDLジョブ状態を並列化可能なテンソルコレクション(PTC)として外部化する。 dlジョブのgpu割り当てが変更された場合、tenplexはptcを使用してdlジョブ状態を変換する。データセット状態については、tenplexはデータ並列化の下でそれを再分割し、仮想ファイルシステムを介してワーカーに公開する。効率性のために、これらのPTC変換は、デバイスとワーカー間のデータ移動の最小限と並行して実行される。実験により、TenplexはDLジョブを低オーバーヘッドで動的並列化をサポートできることを示した。

関連論文リスト

Faster Multi-GPU Training with PPLL: A Pipeline Parallelism Framework Leveraging Local Learning [8.628231789161577]
本稿では,ローカル学習アルゴリズムを活用する新しいフレームワークPPLL(Pipeline Parallelism based on Local Learning)を提案する。 GPU間のデータ転送を管理するキューを利用することで、PPLLはシームレスなクロスGPU通信を保証する。その結果,PPLLは従来のパイプライン並列処理と同等あるいはそれ以上の訓練速度を達成しつつ,局所的な学習手法の学習速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-11-19T08:09:18Z)
Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文参考訳（メタデータ） (2024-10-26T00:43:59Z)
Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文参考訳（メタデータ） (2023-08-22T04:54:30Z)
Parallel $Q$-Learning: Scaling Off-policy Reinforcement Learning under Massively Parallel Simulation [17.827002299991285]
強化学習は、大量のトレーニングデータを必要とするため、複雑なタスクに時間を要する。アイザック・ギムのようなGPUベースのシミュレーションの最近の進歩は、コモディティGPU上で何千回もデータを収集している。本稿では,PPOを壁面時間で上回る並列$Q$-Learning方式を提案する。
論文参考訳（メタデータ） (2023-07-24T17:59:37Z)
Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。理論的には、再発と注意の関係を導出する。言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文参考訳（メタデータ） (2023-07-17T16:40:01Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
PARTIME: Scalable and Parallel Processing Over Time with Deep Neural Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。 PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文参考訳（メタデータ） (2022-10-17T14:49:14Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。 ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文参考訳（メタデータ） (2021-04-17T13:36:19Z)
TeraPipe: Token-Level Pipeline Parallelism for Training Large-Scale Language Models [60.23234205219347]
TeraPipeは、Transformerベースの言語モデルの同期モデル並列トレーニングのための高性能トークンレベルのパイプライン並列アルゴリズムです。 TeraPipeは、AWSクラスタ上で1750億のパラメータを持つ最大のGPT-3モデルのトレーニングを5.0倍高速化できることを示す。
論文参考訳（メタデータ） (2021-02-16T07:34:32Z)
Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文参考訳（メタデータ） (2020-12-07T16:38:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。