論文の概要: Impact of RoCE Congestion Control Policies on Distributed Training of
DNNs
- arxiv url: http://arxiv.org/abs/2207.10898v1
- Date: Fri, 22 Jul 2022 06:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:32:55.361195
- Title: Impact of RoCE Congestion Control Policies on Distributed Training of
DNNs
- Title(参考訳): DNNの分散訓練におけるRoCE混雑抑制策の影響
- Authors: Tarannum Khan, Saeed Rashidi, Srinivas Sridharan, Pallavi Shurpali,
Aditya Akella, Tushar Krishna
- Abstract要約: 分散学習プラットフォーム上でのSOTA RoCEの混雑制御方式とPFCの比較を行った。
以上の結果から,従来提案されていたRoCE渋滞制御スキームは,トレーニングワークロードのエンドツーエンドパフォーマンスにはほとんど影響を与えていないことが示唆された。
- 参考スコア(独自算出の注目度): 7.573461420853252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RDMA over Converged Ethernet (RoCE) has gained significant attraction for
datacenter networks due to its compatibility with conventional Ethernet-based
fabric. However, the RDMA protocol is efficient only on (nearly) lossless
networks, emphasizing the vital role of congestion control on RoCE networks.
Unfortunately, the native RoCE congestion control scheme, based on Priority
Flow Control (PFC), suffers from many drawbacks such as unfairness,
head-of-line-blocking, and deadlock. Therefore, in recent years many schemes
have been proposed to provide additional congestion control for RoCE networks
to minimize PFC drawbacks. However, these schemes are proposed for general
datacenter environments. In contrast to the general datacenters that are built
using commodity hardware and run general-purpose workloads, high-performance
distributed training platforms deploy high-end accelerators and network
components and exclusively run training workloads using collectives
(All-Reduce, All-To-All) communication libraries for communication.
Furthermore, these platforms usually have a private network, separating their
communication traffic from the rest of the datacenter traffic. Scalable
topology-aware collective algorithms are inherently designed to avoid incast
patterns and balance traffic optimally. These distinct features necessitate
revisiting previously proposed congestion control schemes for general-purpose
datacenter environments. In this paper, we thoroughly analyze some of the SOTA
RoCE congestion control schemes vs. PFC when running on distributed training
platforms. Our results indicate that previously proposed RoCE congestion
control schemes have little impact on the end-to-end performance of training
workloads, motivating the necessity of designing an optimized, yet
low-overhead, congestion control scheme based on the characteristics of
distributed training platforms and workloads.
- Abstract(参考訳): RDMA over Converged Ethernet (RoCE) は、従来のイーサネットベースのファブリックとの互換性のため、データセンターネットワークに大きな注目を集めている。
しかし、RDMAプロトコルは(ほぼ)損失のないネットワーク上でのみ効率が良く、RoCEネットワークにおける渋滞制御の重要な役割を強調している。
残念なことに、プライオリティフロー制御(PFC)に基づくネイティブなRoCE渋滞制御スキームは、不公平さ、ラインオブブロッキング、デッドロックといった多くの欠点に悩まされている。
そのため、近年、PFCの欠点を最小限に抑えるため、RoCEネットワークにさらなる渋滞制御を提供するスキームが提案されている。
しかし、これらのスキームは一般的なデータセンター環境に対して提案されている。
コモディティハードウェアを使用して構築され、汎用ワークロードを実行する一般的なデータセンタとは対照的に、ハイパフォーマンスな分散トレーニングプラットフォームは、ハイエンドアクセラレータとネットワークコンポーネントをデプロイし、通信のためのコレクティブ(all-reduce、all-to-all)通信ライブラリを使用してトレーニングワークロードのみを実行する。
さらに、これらのプラットフォームは通常プライベートネットワークを持ち、通信トラフィックを他のデータセンタトラフィックから分離する。
スケーラブルなトポロジアウェア集団アルゴリズムは本質的に、インキャストパターンを避け、トラフィックを最適にバランスさせるように設計されている。
これらの特徴は、従来提案されていた汎用データセンター環境の混雑制御方式を再検討することを必要とする。
本稿では,分散トレーニングプラットフォーム上での動作において,SOTA RoCEの混雑制御方式とPFCの比較を徹底的に分析する。
以上の結果から,従来提案されていたRoCEの混雑制御スキームは,トレーニングワークロードのエンドツーエンドのパフォーマンスにはほとんど影響を与えず,分散トレーニングプラットフォームやワークロードの特性に基づいた,最適化された低オーバヘッドの混雑制御スキームの設計の必要性が示唆された。
関連論文リスト
- Communication-Control Codesign for Large-Scale Wireless Networked Control Systems [80.30532872347668]
無線ネットワーク制御システム(Wireless Networked Control Systems, WNCS)は、ドローン群や自律ロボットなどのアプリケーションにおいて柔軟な制御を可能にする産業用4.0に必須である。
本稿では,マルチ状態マルコフブロックフェーディングチャネル上で限られた無線リソースを共有するセンサやアクチュエータを用いて,複数の制御ループ間の相関ダイナミクスを捕捉する実用的WNCSモデルを提案する。
本研究では,ハイブリッドな動作空間を効率的に処理し,通信制御の相関関係を捉え,疎域変数や浮動小数点制御の入力に拘わらず堅牢なトレーニングを確実にするDeep Reinforcement Learning (DRL)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-15T06:28:21Z) - Constrained Reinforcement Learning for Adaptive Controller Synchronization in Distributed SDN [7.277944770202078]
この研究は、AR/VRタスクのオフロードにおいて、高いレイテンシ閾値を保証するために、価値ベースとポリシーベースの手法の両方を含む深層強化学習(DRL)技術を検討することに焦点を当てる。
評価結果は,レイテンシやロードバランシングといった個々のネットワークメトリクスを最適化する上で,値ベースの手法が優れているのに対して,ポリシベースのアプローチは,突然のネットワーク変更や再構成に適応する上で,ロバスト性が高いことを示している。
論文 参考訳(メタデータ) (2024-01-21T21:57:22Z) - Prioritising Interactive Flows in Data Center Networks With Central
Control [0.0]
データセンターネットワークにおける対話型フローの優先順位付けを支援する中央制御器に関する2つの問題に対処する。
論文の前半では,ソフトウェア定義ネットワークにおける渋滞制御の問題に対処する。
本稿では,ネットワークのグローバルビューを持つコントローラが,エンドTCPホストの混雑制御決定に積極的に参加するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-27T07:15:15Z) - GraphCC: A Practical Graph Learning-based Approach to Congestion Control
in Datacenters [6.47712691414707]
データセンターネットワーク(DCN)におけるトラフィックの最適化において,渋滞制御(CC)が基本的な役割を担っている
本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
論文 参考訳(メタデータ) (2023-08-09T12:04:41Z) - A Deep Reinforcement Learning Framework for Optimizing Congestion
Control in Data Centers [2.310582065745938]
異なるネットワーク環境において高い性能を達成するために,様々な渋滞制御プロトコルが設計されている。
集中制御アクションをマシンに委譲する現代のオンライン学習ソリューションは、データセンターの厳格な時間スケールに適切に収束できない。
我々はマルチエージェント強化学習を利用して、データセンターのエンドホストにおける混雑制御パラメータを動的にチューニングするシステムを設計する。
論文 参考訳(メタデータ) (2023-01-29T22:08:35Z) - Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。
DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。
DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文 参考訳(メタデータ) (2022-11-03T09:08:30Z) - Machine Learning-Based User Scheduling in Integrated
Satellite-HAPS-Ground Networks [82.58968700765783]
第6世代通信ネットワーク(6G)の強化のための価値あるソリューション空間の提供を約束する。
本稿では,空対地統合通信におけるユーザスケジューリングにおける機械学習の可能性について述べる。
論文 参考訳(メタデータ) (2022-05-27T13:09:29Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Decentralized Control with Graph Neural Networks [147.84766857793247]
分散コントローラを学習するグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。
GNNは、自然分散アーキテクチャであり、優れたスケーラビリティと転送性を示すため、タスクに適している。
分散コントローラの学習におけるGNNの可能性を説明するために、群れとマルチエージェントパス計画の問題を検討する。
論文 参考訳(メタデータ) (2020-12-29T18:59:14Z) - CFR-RL: Traffic Engineering with Reinforcement Learning in SDN [5.718975715943091]
本稿では,各トラフィック行列に対して重要なフローを自動的に選択するポリシーを学習する強化型スキームを提案する。
CFR-RLは、全トラフィックの10%-21.3%だけをリルートすることで、ほぼ最適性能を達成する。
論文 参考訳(メタデータ) (2020-04-24T20:46:54Z) - Decentralized Learning for Channel Allocation in IoT Networks over
Unlicensed Bandwidth as a Contextual Multi-player Multi-armed Bandit Game [134.88020946767404]
本稿では,プライマリセルネットワークにライセンスされたスペクトルに基づいて,アドホックなモノのインターネットネットワークにおける分散チャネル割り当て問題について検討する。
本研究では,この問題をコンテキスト型マルチプレイヤー・マルチアームバンディットゲームにマッピングし,試行錯誤による純粋に分散化された3段階ポリシー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-30T10:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。