論文の概要: GraphCC: A Practical Graph Learning-based Approach to Congestion Control
in Datacenters
- arxiv url: http://arxiv.org/abs/2308.04905v1
- Date: Wed, 9 Aug 2023 12:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:54:07.747544
- Title: GraphCC: A Practical Graph Learning-based Approach to Congestion Control
in Datacenters
- Title(参考訳): GraphCC: データセンターの混雑制御のためのグラフ学習に基づく実践的アプローチ
- Authors: Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Xiang Shi, Shihan Xiao,
Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio
- Abstract要約: データセンターネットワーク(DCN)におけるトラフィックの最適化において,渋滞制御(CC)が基本的な役割を担っている
本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
- 参考スコア(独自算出の注目度): 6.47712691414707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Congestion Control (CC) plays a fundamental role in optimizing traffic in
Data Center Networks (DCN). Currently, DCNs mainly implement two main CC
protocols: DCTCP and DCQCN. Both protocols -- and their main variants -- are
based on Explicit Congestion Notification (ECN), where intermediate switches
mark packets when they detect congestion. The ECN configuration is thus a
crucial aspect on the performance of CC protocols. Nowadays, network experts
set static ECN parameters carefully selected to optimize the average network
performance. However, today's high-speed DCNs experience quick and abrupt
changes that severely change the network state (e.g., dynamic traffic
workloads, incast events, failures). This leads to under-utilization and
sub-optimal performance. This paper presents GraphCC, a novel Machine
Learning-based framework for in-network CC optimization. Our distributed
solution relies on a novel combination of Multi-agent Reinforcement Learning
(MARL) and Graph Neural Networks (GNN), and it is compatible with widely
deployed ECN-based CC protocols. GraphCC deploys distributed agents on switches
that communicate with their neighbors to cooperate and optimize the global ECN
configuration. In our evaluation, we test the performance of GraphCC under a
wide variety of scenarios, focusing on the capability of this solution to adapt
to new scenarios unseen during training (e.g., new traffic workloads, failures,
upgrades). We compare GraphCC with a state-of-the-art MARL-based solution for
ECN tuning -- ACC -- and observe that our proposed solution outperforms the
state-of-the-art baseline in all of the evaluation scenarios, showing
improvements up to $20\%$ in Flow Completion Time as well as significant
reductions in buffer occupancy ($38.0-85.7\%$).
- Abstract(参考訳): Congestion Control (CC)は、データセンターネットワーク(DCN)におけるトラフィックの最適化において、基本的な役割を果たす。
現在、DCNは主にDCTCPとDCQCNの2つの主要なCCプロトコルを実装している。
プロトコル -- とメインの変種 -- は、明示的な混雑通知(ecn)に基づいており、中間スイッチが混雑を検出するとパケットをマークする。
したがって、ECN構成はCCプロトコルの性能において重要な側面である。
現在、ネットワークの専門家は、平均ネットワーク性能を最適化するために慎重に選択された静的ecnパラメータを設定する。
しかし、今日の高速DCNは、ネットワーク状態(例えば、動的トラフィックワークロード、インキャストイベント、障害)を大きく変える、迅速かつ突然の変更を経験する。
これにより、低利用化と準最適性能がもたらされる。
本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
我々の分散ソリューションは、MARL(Multi-agent Reinforcement Learning)とGNN(Graph Neural Networks)という新しい組み合わせに依存しており、広くデプロイされたECNベースのCCプロトコルと互換性がある。
GraphCCは、グローバルECN設定を最適化するために、隣人と通信するスイッチに分散エージェントをデプロイする。
当社の評価では、トレーニング中の新たなシナリオ(新しいトラフィックワークロード、障害、アップグレードなど)に適応するための、このソリューションの能力に注目しながら、さまざまなシナリオでgraphccのパフォーマンスをテストしています。
GraphCCを最先端のMARLベースのECNチューニングソリューション(ACC)と比較し、提案したソリューションがすべての評価シナリオで最先端のベースラインよりも優れており、フローコンプリート時間で最大20\%、バッファ占有率の大幅な削減(38.0-85.7\%$)を示しています。
関連論文リスト
- Node Centrality Approximation For Large Networks Based On Inductive
Graph Neural Networks [2.4012886591705738]
ネットワーク分析において、クローズネス中央度(CC)とブロードネス中央度(BC)が重要な指標である。
大規模なネットワーク上での実践的な実装は、その高速な複雑さのため、計算的に要求される。
本稿では,CNCA-IGEモデルを提案する。CNCA-IGEモデルは,CCやBCのメトリクスに基づいてノードをランク付けするインダクティブグラフエンコーダ・デコーダモデルである。
論文 参考訳(メタデータ) (2024-03-08T01:23:12Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Implementing Reinforcement Learning Datacenter Congestion Control in
NVIDIA NICs [62.557323506605236]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - IMDeception: Grouped Information Distilling Super-Resolution Network [7.6146285961466]
SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。
本稿では,機能集約のためのIICモジュールの代替として,GPRM(Global Progressive Refinement Module)を提案する。
また,1秒あたりのパラメータ数や浮動小数点演算量(FLOPS)をさらに削減するために,GIDB(Grouped Information Distilling Blocks)を提案する。
実験の結果,提案したネットワークは,パラメータ数やFLOPSが限られているにもかかわらず,最先端モデルと同等に動作していることがわかった。
論文 参考訳(メタデータ) (2022-04-25T06:43:45Z) - Impact of On-Chip Interconnect on In-Memory Acceleration of Deep Neural
Networks [11.246977770747526]
接続密度の増加はチップ上のデータ移動を増加させる。
本稿では,P2Pベースの相互接続が,チップ上の大量のデータ移動を処理できないことを示す。
任意のDNNに対して最適な相互接続を選択する手法を提案する。
論文 参考訳(メタデータ) (2021-07-06T02:44:00Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Deep Learning-based Resource Allocation For Device-to-Device
Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。
任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。
シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文 参考訳(メタデータ) (2020-11-25T14:19:23Z) - Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling [1.5785002371773138]
Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
論文 参考訳(メタデータ) (2020-04-29T08:32:33Z) - Decentralized SGD with Over-the-Air Computation [13.159777131162961]
無線ネットワークにおける分散数値勾配降下(DSGD)の性能について検討する。
伝送は付加的なノイズや干渉を生じやすいと仮定する。
OAC-MAC方式はより少ない通信ラウンドでコンバージェンス性能が向上することを示す。
論文 参考訳(メタデータ) (2020-03-06T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。