Fugu-MT 論文翻訳(概要): Boosting Distributed Machine Learning Training Through Loss-tolerant Transmission Protocol

論文の概要: Boosting Distributed Machine Learning Training Through Loss-tolerant Transmission Protocol

arxiv url: http://arxiv.org/abs/2305.04279v1
Date: Sun, 7 May 2023 14:01:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 12:15:20.240097
Title: Boosting Distributed Machine Learning Training Through Loss-tolerant Transmission Protocol
Title（参考訳）: 損失耐性伝送プロトコルによる分散機械学習トレーニングの促進
Authors: Zixuan Chen, Lei Shi, Xuandong Liu, Xin Ai, Sen Liu, and Yang Xu
Abstract要約: 分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。 PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。 textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。 textitEarly Closes the loss-tolerant threshold based on network conditions and textit
参考スコア（独自算出の注目度）: 11.161913989794257
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed Machine Learning (DML) systems are utilized to enhance the speed of model training in data centers (DCs) and edge nodes. The Parameter Server (PS) communication architecture is commonly employed, but it faces severe long-tail latency caused by many-to-one "incast" traffic patterns, negatively impacting training throughput. To address this challenge, we design the \textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP), which permits partial loss of gradients during synchronization to avoid unneeded retransmission and contributes to faster synchronization per iteration. LTP implements loss-tolerant transmission through \textit{out-of-order transmission} and \textit{out-of-order Acknowledges (ACKs)}. LTP employs \textit{Early Close} to adjust the loss-tolerant threshold based on network conditions and \textit{Bubble Filling} for data correction to maintain training accuracy. LTP is implemented by C++ and integrated into PyTorch. Evaluations on a testbed of 8 worker nodes and one PS node demonstrate that LTP can significantly improve DML training task throughput by up to 30x compared to traditional TCP congestion controls, with no sacrifice to final accuracy.
Abstract（参考訳）: 分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。パラメータサーバ(PS)通信アーキテクチャは一般的に使用されるが、多対一の"インキャスト"トラフィックパターンによって引き起こされる非常に長いレイテンシに直面し、トレーニングスループットに悪影響を及ぼす。この課題に対処するために、不要な再送を回避するために同期中の勾配の部分的損失を許容し、反復毎の高速化に寄与する、textbf{L}oss-tolerant \textbf{T}ransmission \textbf{P}rotocol (LTP) を設計する。 LTP は \textit{out-of-order transmission} と \textit{out-of-order Acknowledges (ACKs)} を通じてロス耐性伝送を実装している。 LTPは、ネットワーク条件に基づいて損失耐性閾値を調整するために \textit{Early Close} と、トレーニング精度を維持するためにデータ修正に \textit{Bubble Filling} を使用している。 LTPはC++で実装され、PyTorchに統合されている。 8つのワーカノードと1つのPSノードによるテストベッドの評価は、LCPがDMLトレーニングタスクのスループットを従来のTCPの混雑制御に比べて最大30倍向上し、最終的な精度を犠牲にすることなく向上できることを示した。

関連論文リスト

Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。提案手法の有効性を数値解析により検証した。
論文参考訳（メタデータ） (2024-11-04T17:48:02Z)
Communication Efficient ConFederated Learning: An Event-Triggered SAGA Approach [67.27031215756121]
Federated Learning(FL)は、さまざまなデータソース上のローカルデータを収集することなく、モデルトレーニングをターゲットとする機械学習パラダイムである。単一のサーバを使用するStandard FLは、限られた数のユーザしかサポートできないため、学習能力の低下につながる。本研究では,多数のユーザに対応するために,emphConfederated Learning(CFL)と呼ばれるマルチサーバFLフレームワークを検討する。
論文参考訳（メタデータ） (2024-02-28T03:27:10Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
TRANSOM: An Efficient Fault-Tolerant System for Training LLMs [7.831906758749453]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、チャットGPTによって表現され、様々な分野に大きな影響を与えている。超大規模パラメータによるLLMのトレーニングには、大規模な高性能GPUクラスタと、数ヶ月にわたる長いトレーニング期間が必要である。これらの課題に対処するため,新しい耐故障性LLMトレーニングシステムであるTransOMを提案する。
論文参考訳（メタデータ） (2023-10-16T04:06:52Z)
Adaptive Federated Pruning in Hierarchical Wireless Networks [69.6417645730093]
Federated Learning(FL)は、サーバがプライベートデータセットにアクセスすることなく、複数のデバイスによって更新されたモデルを集約する、プライバシ保護の分散学習フレームワークである。本稿では,無線ネットワークにおけるHFLのモデルプルーニングを導入し,ニューラルネットワークの規模を小さくする。提案するHFLは,モデルプルーニングを伴わないHFLと比較して学習精度が良く,通信コストが約50%削減できることを示す。
論文参考訳（メタデータ） (2023-05-15T22:04:49Z)
Efficient Federated Learning with Enhanced Privacy via Lottery Ticket Pruning in Edge Computing [19.896989498650207]
Federated Learning(FL)は、モバイル端末(MT)からの分散型プライベートデータのための協調学習パラダイムである。既存のプライバシ保存手法は、通常、インスタンスレベルの差分プライバシー(DP)を採用する。 We propose Fed-enhanced FL framework with UnderlinetextbfLottery underlinetextbfTicket underlinetextbfHypothesis (LTH) and zero-concentated DunderlinetextbfP (zCDP)。
論文参考訳（メタデータ） (2023-05-02T13:02:09Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Fixed-Weight Difference Target Propagation [12.559727665706687]
トレーニング中のフィードバック重みを一定に保つFW-DTP(Fixed-Weight Different Target Propagation)を提案する。 FW-DTPは、4つの分類データセット上の差分ターゲット伝搬(DTP)であるベースラインよりも高いテスト性能を一貫して達成する。また、FW-DTPを解析するために、DTPのフィードバック関数の正確な形を説明する新しい伝搬アーキテクチャを提案する。
論文参考訳（メタデータ） (2022-12-19T13:34:36Z)
Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。 DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。 DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文参考訳（メタデータ） (2022-11-03T09:08:30Z)
Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。他のTE加速方式と比較して、Tealは需要を6～32%増やし、197～625倍のスピードアップを達成している。
論文参考訳（メタデータ） (2022-10-25T04:46:30Z)
OFedQIT: Communication-Efficient Online Federated Learning via Quantization and Intermittent Transmission [7.6058140480517356]
オンライン連合学習(OFL)は、分散ストリーミングデータから非線形関数(またはモデル)のシーケンスを協調的に学習する、有望なフレームワークである。本稿では、量子化と断続伝送を用いた通信効率の高いOFLアルゴリズム(OFedQIT)を提案する。分析の結果,OfedQITは優れた学習精度を維持しつつ,OfedAvgの欠点に対処できることがわかった。
論文参考訳（メタデータ） (2022-05-13T07:46:43Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Domain-specific Communication Optimization for Distributed DNN Training [10.781867496460837]
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
論文参考訳（メタデータ） (2020-08-16T09:53:21Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。