論文の概要: Implementing Reinforcement Learning Datacenter Congestion Control in
NVIDIA NICs
- arxiv url: http://arxiv.org/abs/2207.02295v1
- Date: Tue, 5 Jul 2022 20:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 12:45:19.836625
- Title: Implementing Reinforcement Learning Datacenter Congestion Control in
NVIDIA NICs
- Title(参考訳): NVIDIA NICにおける強化学習データセンターの混雑制御の実装
- Authors: Benjamin Fuhrer, Yuval Shpigelman, Chen Tessler, Shie Mannor, Gal
Chechik, Eitan Zahavi, Gal Dalal
- Abstract要約: 本稿では,特定の交通シナリオから学習するReinforcement Learning (RL)ベースの渋滞制御ソリューションを提案する。
次に、RLニューラルネットワークポリシーをバイナリ決定木に蒸留し、所望の$mu$sec決定遅延を実現する。
実際のネットワーク上でNVIDIA NICに蒸留ポリシーをデプロイし、最先端のパフォーマンスを実証する。
- 参考スコア(独自算出の注目度): 62.557323506605236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud datacenters are exponentially growing both in numbers and size. This
increase results in a network activity surge that warrants better congestion
avoidance. The resulting challenge is two-fold: (i) designing algorithms that
can be custom-tuned to the complex traffic patterns of a given datacenter; but,
at the same time (ii) run on low-level hardware with the required low latency
of effective Congestion Control (CC). In this work, we present a Reinforcement
Learning (RL) based CC solution that learns from certain traffic scenarios and
successfully generalizes to others. We then distill the RL neural network
policy into binary decision trees to achieve the desired $\mu$sec decision
latency required for real-time inference with RDMA. We deploy the distilled
policy on NVIDIA NICs in a real network and demonstrate state-of-the-art
performance, balancing all tested metrics simultaneously: bandwidth, latency,
fairness, and packet drops.
- Abstract(参考訳): クラウドデータセンタは、数とサイズの両方で指数関数的に成長しています。
この増加は、より混雑回避を保証できるネットワーク活動の急増をもたらす。
結果として生じる課題は2つあります。
(i)データセンターの複雑なトラフィックパターンに合わせてカスタマイズ可能なアルゴリズムを設計すると同時に
(II) 効率的な渋滞制御(CC)に必要な低レイテンシで低レベルのハードウェア上で動作させる。
本研究では,特定のトラヒックシナリオから学習し,他への一般化に成功する強化学習(rl)ベースのccソリューションを提案する。
次に、RLニューラルネットワークポリシーをバイナリ決定木に蒸留し、RDMAによるリアルタイム推論に必要な$\mu$sec決定遅延を実現する。
実際のネットワーク上でNVIDIA NICに蒸留ポリシをデプロイし、最先端のパフォーマンスを示し、テストされたすべてのメトリクス(帯域幅、レイテンシ、公正性、パケットドロップ)を同時にバランスさせる。
関連論文リスト
- Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - CLAN: Continuous Learning using Asynchronous Neuroevolution on Commodity
Edge Devices [3.812706195714961]
我々は、NeuroEvolutionary(NE)学習と推論を実行するWiFiを介して通信するRaspberry Piのプロトタイプシステムを構築した。
本研究では,このような協調システムの性能を評価し,システムの異なる配置の計算/通信特性について詳述する。
論文 参考訳(メタデータ) (2020-08-27T01:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。