論文の概要: GraphCC: A Practical Graph Learning-based Approach to Congestion Control
in Datacenters
- arxiv url: http://arxiv.org/abs/2308.04905v1
- Date: Wed, 9 Aug 2023 12:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:54:07.747544
- Title: GraphCC: A Practical Graph Learning-based Approach to Congestion Control
in Datacenters
- Title(参考訳): GraphCC: データセンターの混雑制御のためのグラフ学習に基づく実践的アプローチ
- Authors: Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Xiang Shi, Shihan Xiao,
Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio
- Abstract要約: データセンターネットワーク(DCN)におけるトラフィックの最適化において,渋滞制御(CC)が基本的な役割を担っている
本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
- 参考スコア(独自算出の注目度): 6.47712691414707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Congestion Control (CC) plays a fundamental role in optimizing traffic in
Data Center Networks (DCN). Currently, DCNs mainly implement two main CC
protocols: DCTCP and DCQCN. Both protocols -- and their main variants -- are
based on Explicit Congestion Notification (ECN), where intermediate switches
mark packets when they detect congestion. The ECN configuration is thus a
crucial aspect on the performance of CC protocols. Nowadays, network experts
set static ECN parameters carefully selected to optimize the average network
performance. However, today's high-speed DCNs experience quick and abrupt
changes that severely change the network state (e.g., dynamic traffic
workloads, incast events, failures). This leads to under-utilization and
sub-optimal performance. This paper presents GraphCC, a novel Machine
Learning-based framework for in-network CC optimization. Our distributed
solution relies on a novel combination of Multi-agent Reinforcement Learning
(MARL) and Graph Neural Networks (GNN), and it is compatible with widely
deployed ECN-based CC protocols. GraphCC deploys distributed agents on switches
that communicate with their neighbors to cooperate and optimize the global ECN
configuration. In our evaluation, we test the performance of GraphCC under a
wide variety of scenarios, focusing on the capability of this solution to adapt
to new scenarios unseen during training (e.g., new traffic workloads, failures,
upgrades). We compare GraphCC with a state-of-the-art MARL-based solution for
ECN tuning -- ACC -- and observe that our proposed solution outperforms the
state-of-the-art baseline in all of the evaluation scenarios, showing
improvements up to $20\%$ in Flow Completion Time as well as significant
reductions in buffer occupancy ($38.0-85.7\%$).
- Abstract(参考訳): Congestion Control (CC)は、データセンターネットワーク(DCN)におけるトラフィックの最適化において、基本的な役割を果たす。
現在、DCNは主にDCTCPとDCQCNの2つの主要なCCプロトコルを実装している。
プロトコル -- とメインの変種 -- は、明示的な混雑通知(ecn)に基づいており、中間スイッチが混雑を検出するとパケットをマークする。
したがって、ECN構成はCCプロトコルの性能において重要な側面である。
現在、ネットワークの専門家は、平均ネットワーク性能を最適化するために慎重に選択された静的ecnパラメータを設定する。
しかし、今日の高速DCNは、ネットワーク状態(例えば、動的トラフィックワークロード、インキャストイベント、障害)を大きく変える、迅速かつ突然の変更を経験する。
これにより、低利用化と準最適性能がもたらされる。
本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
我々の分散ソリューションは、MARL(Multi-agent Reinforcement Learning)とGNN(Graph Neural Networks)という新しい組み合わせに依存しており、広くデプロイされたECNベースのCCプロトコルと互換性がある。
GraphCCは、グローバルECN設定を最適化するために、隣人と通信するスイッチに分散エージェントをデプロイする。
当社の評価では、トレーニング中の新たなシナリオ(新しいトラフィックワークロード、障害、アップグレードなど)に適応するための、このソリューションの能力に注目しながら、さまざまなシナリオでgraphccのパフォーマンスをテストしています。
GraphCCを最先端のMARLベースのECNチューニングソリューション(ACC)と比較し、提案したソリューションがすべての評価シナリオで最先端のベースラインよりも優れており、フローコンプリート時間で最大20\%、バッファ占有率の大幅な削減(38.0-85.7\%$)を示しています。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - AdaRC: Mitigating Graph Structure Shifts during Test-Time [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。
AdaRCは,グラフの構造シフトに効果的かつ効率的な適応を意図した,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T15:15:40Z) - FG-SAT: Efficient Flow Graph for Encrypted Traffic Classification under Environment Shifts [19.76017462160707]
暗号化されたトラフィック分類は、ネットワークのセキュリティと管理において重要な役割を果たす。
既存の手法では、トランスポート層機構とアプリケーションの間の重要なリンクを認識できない。
FG-SATは,環境変動を考慮した最初のエンドツーエンドのトラフィック解析手法である。
論文 参考訳(メタデータ) (2024-08-26T09:11:36Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - IMDeception: Grouped Information Distilling Super-Resolution Network [7.6146285961466]
SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。
本稿では,機能集約のためのIICモジュールの代替として,GPRM(Global Progressive Refinement Module)を提案する。
また,1秒あたりのパラメータ数や浮動小数点演算量(FLOPS)をさらに削減するために,GIDB(Grouped Information Distilling Blocks)を提案する。
実験の結果,提案したネットワークは,パラメータ数やFLOPSが限られているにもかかわらず,最先端モデルと同等に動作していることがわかった。
論文 参考訳(メタデータ) (2022-04-25T06:43:45Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling [1.5785002371773138]
Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
論文 参考訳(メタデータ) (2020-04-29T08:32:33Z) - Decentralized SGD with Over-the-Air Computation [13.159777131162961]
無線ネットワークにおける分散数値勾配降下(DSGD)の性能について検討する。
伝送は付加的なノイズや干渉を生じやすいと仮定する。
OAC-MAC方式はより少ない通信ラウンドでコンバージェンス性能が向上することを示す。
論文 参考訳(メタデータ) (2020-03-06T15:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。