論文の概要: MLTCP: Congestion Control for DNN Training
- arxiv url: http://arxiv.org/abs/2402.09589v1
- Date: Wed, 14 Feb 2024 21:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:39:25.622533
- Title: MLTCP: Congestion Control for DNN Training
- Title(参考訳): MLTCP:DNNトレーニングのための混雑制御
- Authors: Sudarsanan Rajasekaran, Sanjoli Narang, Anton A. Zabreyko, Manya
Ghobadi
- Abstract要約: 本稿では,今日の混雑制御アルゴリズムを強化する手法であるML TCPを提案する。
ML TCPは、数回のトレーニングを繰り返して、異なるジョブのフローをインターリーブ状態に安定化することを示す。
一般的なDNNトレーニングジョブを用いた実験では、ML TCPが平均2倍、99分の1のトレーニング時間を最大4倍加速することを示した。
- 参考スコア(独自算出の注目度): 1.4291038046951736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MLTCP, a technique to augment today's congestion control
algorithms to accelerate DNN training jobs in shared GPU clusters. MLTCP
enables the communication phases of jobs that compete for network bandwidth to
interleave with each other, thereby utilizing the network efficiently. At the
heart of MLTCP lies a very simple principle based on a key conceptual insight:
DNN training flows should scale their congestion window size based on the
number of bytes sent at each training iteration. We show that integrating this
principle into today's congestion control protocols is straightforward: by
adding 30-60 lines of code to Reno, CUBIC, or DCQCN, MLTCP stabilizes flows of
different jobs into an interleaved state within a few training iterations,
regardless of the number of competing flows or the start time of each flow. Our
experiments with popular DNN training jobs demonstrate that enabling MLTCP
accelerates the average and 99th percentile training iteration time by up to 2x
and 4x, respectively.
- Abstract(参考訳): 共有GPUクラスタにおけるDNNトレーニングジョブを高速化するために,今日の混雑制御アルゴリズムを強化する手法であるMLTCPを提案する。
MLTCPは、ネットワーク帯域幅と競合するジョブの通信フェーズを相互にインターリーブし、ネットワークを効率的に活用する。
DNNトレーニングフローは、各トレーニングイテレーションで送信されるバイト数に基づいて、その混雑ウィンドウサイズをスケールする必要があります。
MLTCPは、Reno、CUBIC、DCQCNに30-60行のコードを追加することで、競合するフローの数や各フローの開始時間に関係なく、数回のトレーニングイテレーションで異なるジョブのフローをインターリーブ状態に安定化する。
一般的なDNNトレーニングジョブを用いた実験では,MLTCPが平均2倍,99分の1のトレーニングイテレーション時間を最大4倍加速することを示した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers [4.370731001036268]
本稿では,完全量子化トレーニング(FQT)と動的部分勾配更新を用いて,MCU上でDNNの効率的なトレーニングを可能にする手法を提案する。
マルチビジョンと時系列データセットに対するアプローチの実現可能性を示し、トレーニング精度、メモリオーバーヘッド、エネルギ、実際のハードウェアでのレイテンシのトレードオフに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-07-15T14:01:34Z) - SpikePipe: Accelerated Training of Spiking Neural Networks via Inter-Layer Pipelining and Multiprocessor Scheduling [5.2831841848274985]
トレーニングスパイキングニューラルネットワーク (Training Spiking Neural Networks, SNN) は、従来のニューラルネットワークに比べて計算コストが高い。
本稿では,シストリックアレイベースのプロセッサとマルチプロセッサスケジューリングを用いて,SNNのトレーニングを高速化するための層間パイプライニングを提案する。
論文 参考訳(メタデータ) (2024-06-11T01:43:45Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Receptive Field-based Segmentation for Distributed CNN Inference
Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文 参考訳(メタデータ) (2022-07-22T18:38:11Z) - Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models [2.6599014990168834]
分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
論文 参考訳(メタデータ) (2021-10-09T06:50:04Z) - BFTrainer: Low-Cost Training of Neural Networks on Unfillable
Supercomputer Nodes [0.8201100713224002]
FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。
我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
論文 参考訳(メタデータ) (2021-06-22T22:53:19Z) - Moshpit SGD: Communication-Efficient Decentralized Training on
Heterogeneous Unreliable Devices [5.74369902800427]
大規模データセットでのディープニューラルネットワークのトレーニングは、複数の計算ノードを使用することで、しばしば加速される。
これらのプロトコルを大規模に実行するには、専用のクラスタでのみ利用できる信頼性の高い高速ネットワークが必要である。
グローバル平均に指数的に収束する反復平均化プロトコルであるMoshpit All-Reduceを提案する。
論文 参考訳(メタデータ) (2021-03-04T18:58:05Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Tensor train decompositions on recurrent networks [60.334946204107446]
マトリックス製品状態(MPS)テンソルトレインは、ストレージの削減と推論時の計算時間の観点から、MPOよりも魅力的な特徴を持つ。
理論解析により,MPSテンソル列車はLSTMネットワーク圧縮の最前線に置かれるべきであることを示す。
論文 参考訳(メタデータ) (2020-06-09T18:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。