論文の概要: Boosting Distributed Machine Learning Training Through Loss-tolerant
Transmission Protocol
- arxiv url: http://arxiv.org/abs/2305.04279v1
- Date: Sun, 7 May 2023 14:01:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 12:15:20.240097
- Title: Boosting Distributed Machine Learning Training Through Loss-tolerant
Transmission Protocol
- Title(参考訳): 損失耐性伝送プロトコルによる分散機械学習トレーニングの促進
- Authors: Zixuan Chen, Lei Shi, Xuandong Liu, Xin Ai, Sen Liu, and Yang Xu
- Abstract要約: 分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。
PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。
textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。
textitEarly Closes the loss-tolerant threshold based on network conditions and textit
- 参考スコア(独自算出の注目度): 11.161913989794257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed Machine Learning (DML) systems are utilized to enhance the speed
of model training in data centers (DCs) and edge nodes. The Parameter Server
(PS) communication architecture is commonly employed, but it faces severe
long-tail latency caused by many-to-one "incast" traffic patterns, negatively
impacting training throughput. To address this challenge, we design the
\textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP), which
permits partial loss of gradients during synchronization to avoid unneeded
retransmission and contributes to faster synchronization per iteration. LTP
implements loss-tolerant transmission through \textit{out-of-order
transmission} and \textit{out-of-order Acknowledges (ACKs)}. LTP employs
\textit{Early Close} to adjust the loss-tolerant threshold based on network
conditions and \textit{Bubble Filling} for data correction to maintain training
accuracy. LTP is implemented by C++ and integrated into PyTorch. Evaluations on
a testbed of 8 worker nodes and one PS node demonstrate that LTP can
significantly improve DML training task throughput by up to 30x compared to
traditional TCP congestion controls, with no sacrifice to final accuracy.
- Abstract(参考訳): 分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。
パラメータサーバ(PS)通信アーキテクチャは一般的に使用されるが、多対一の"インキャスト"トラフィックパターンによって引き起こされる非常に長いレイテンシに直面し、トレーニングスループットに悪影響を及ぼす。
この課題に対処するために、不要な再送を回避するために同期中の勾配の部分的損失を許容し、反復毎の高速化に寄与する、textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP) を設計する。
LTP は \textit{out-of-order transmission} と \textit{out-of-order Acknowledges (ACKs)} を通じてロス耐性伝送を実装している。
LTPは、ネットワーク条件に基づいて損失耐性閾値を調整するために \textit{Early Close} と、トレーニング精度を維持するためにデータ修正に \textit{Bubble Filling} を使用している。
LTPはC++で実装され、PyTorchに統合されている。
8つのワーカノードと1つのPSノードによるテストベッドの評価は、LCPがDMLトレーニングタスクのスループットを従来のTCPの混雑制御に比べて最大30倍向上し、最終的な精度を犠牲にすることなく向上できることを示した。
関連論文リスト
- Communication Efficient ConFederated Learning: An Event-Triggered SAGA
Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。
単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。
本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文 参考訳(メタデータ) (2024-02-28T03:27:10Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。
本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。
提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文 参考訳(メタデータ) (2023-05-15T22:04:49Z) - Efficient Federated Learning with Enhanced Privacy via Lottery Ticket
Pruning in Edge Computing [19.896989498650207]
Federated Learning(FL)は、モバイル端末(MT)からの分散型プライベートデータのための協調学習パラダイムである。
既存のプライバシ保存手法は、通常、インスタンスレベルの差分プライバシー(DP)を採用する。
We propose Fed-enhanced FL framework with UnderlinetextbfLottery underlinetextbfTicket underlinetextbfHypothesis (LTH) and zero-concentated DunderlinetextbfP (zCDP)。
論文 参考訳(メタデータ) (2023-05-02T13:02:09Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Fixed-Weight Difference Target Propagation [12.559727665706687]
トレーニング中のフィードバック重みを一定に保つFW-DTP(Fixed-Weight Different Target Propagation)を提案する。
FW-DTPは、4つの分類データセット上の差分ターゲット伝搬(DTP)であるベースラインよりも高いテスト性能を一貫して達成する。
また、FW-DTPを解析するために、DTPのフィードバック関数の正確な形を説明する新しい伝搬アーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-19T13:34:36Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - OFedQIT: Communication-Efficient Online Federated Learning via
Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。
本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。
分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文 参考訳(メタデータ) (2022-05-13T07:46:43Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Domain-specific Communication Optimization for Distributed DNN Training [10.781867496460837]
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。
その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
論文 参考訳(メタデータ) (2020-08-16T09:53:21Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。