Fugu-MT 論文翻訳(概要): GraphCC: A Practical Graph Learning-based Approach to Congestion Control in Datacenters

論文の概要: GraphCC: A Practical Graph Learning-based Approach to Congestion Control in Datacenters

arxiv url: http://arxiv.org/abs/2308.04905v1
Date: Wed, 9 Aug 2023 12:04:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 13:54:07.747544
Title: GraphCC: A Practical Graph Learning-based Approach to Congestion Control in Datacenters
Title（参考訳）: GraphCC: データセンターの混雑制御のためのグラフ学習に基づく実践的アプローチ
Authors: Guillermo Bern\'ardez, Jos\'e Su\'arez-Varela, Xiang Shi, Shihan Xiao, Xiangle Cheng, Pere Barlet-Ros, Albert Cabellos-Aparicio
Abstract要約: データセンターネットワーク(DCN)におけるトラフィックの最適化において,渋滞制御(CC)が基本的な役割を担っている本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。
参考スコア（独自算出の注目度）: 6.47712691414707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Congestion Control (CC) plays a fundamental role in optimizing traffic in Data Center Networks (DCN). Currently, DCNs mainly implement two main CC protocols: DCTCP and DCQCN. Both protocols -- and their main variants -- are based on Explicit Congestion Notification (ECN), where intermediate switches mark packets when they detect congestion. The ECN configuration is thus a crucial aspect on the performance of CC protocols. Nowadays, network experts set static ECN parameters carefully selected to optimize the average network performance. However, today's high-speed DCNs experience quick and abrupt changes that severely change the network state (e.g., dynamic traffic workloads, incast events, failures). This leads to under-utilization and sub-optimal performance. This paper presents GraphCC, a novel Machine Learning-based framework for in-network CC optimization. Our distributed solution relies on a novel combination of Multi-agent Reinforcement Learning (MARL) and Graph Neural Networks (GNN), and it is compatible with widely deployed ECN-based CC protocols. GraphCC deploys distributed agents on switches that communicate with their neighbors to cooperate and optimize the global ECN configuration. In our evaluation, we test the performance of GraphCC under a wide variety of scenarios, focusing on the capability of this solution to adapt to new scenarios unseen during training (e.g., new traffic workloads, failures, upgrades). We compare GraphCC with a state-of-the-art MARL-based solution for ECN tuning -- ACC -- and observe that our proposed solution outperforms the state-of-the-art baseline in all of the evaluation scenarios, showing improvements up to $20\%$ in Flow Completion Time as well as significant reductions in buffer occupancy ($38.0-85.7\%$).
Abstract（参考訳）: Congestion Control (CC)は、データセンターネットワーク(DCN)におけるトラフィックの最適化において、基本的な役割を果たす。現在、DCNは主にDCTCPとDCQCNの2つの主要なCCプロトコルを実装している。プロトコル -- とメインの変種 -- は、明示的な混雑通知(ecn)に基づいており、中間スイッチが混雑を検出するとパケットをマークする。したがって、ECN構成はCCプロトコルの性能において重要な側面である。現在、ネットワークの専門家は、平均ネットワーク性能を最適化するために慎重に選択された静的ecnパラメータを設定する。しかし、今日の高速DCNは、ネットワーク状態(例えば、動的トラフィックワークロード、インキャストイベント、障害)を大きく変える、迅速かつ突然の変更を経験する。これにより、低利用化と準最適性能がもたらされる。本稿では,ネットワーク内CC最適化のための新しい機械学習ベースのフレームワークであるGraphCCを提案する。我々の分散ソリューションは、MARL(Multi-agent Reinforcement Learning)とGNN(Graph Neural Networks)という新しい組み合わせに依存しており、広くデプロイされたECNベースのCCプロトコルと互換性がある。 GraphCCは、グローバルECN設定を最適化するために、隣人と通信するスイッチに分散エージェントをデプロイする。当社の評価では、トレーニング中の新たなシナリオ(新しいトラフィックワークロード、障害、アップグレードなど)に適応するための、このソリューションの能力に注目しながら、さまざまなシナリオでgraphccのパフォーマンスをテストしています。 GraphCCを最先端のMARLベースのECNチューニングソリューション(ACC)と比較し、提案したソリューションがすべての評価シナリオで最先端のベースラインよりも優れており、フローコンプリート時間で最大20\%、バッファ占有率の大幅な削減(38.0-85.7\%$)を示しています。

関連論文リスト

TrafficKAN-GCN: Graph Convolutional-based Kolmogorov-Arnold Network for Traffic Flow Optimization [21.65543843942033]
TrafficKAN-GCNは、Kolmogorov-Arnold Networks (KAN)とGraph Convolutional Networks (GCN)を組み合わせたハイブリッドディープラーニングフレームワークである。提案手法をボルチモア都市圏の実際の交通データを用いて評価する。我々の実験は、交通の流れを再分配し、渋滞を緩和し、フランシス・スコット・キーブリッジ崩壊のような破壊的な出来事に適応するフレームワークの能力を強調した。
論文参考訳（メタデータ） (2025-03-05T08:59:06Z)
ReInc: Scaling Training of Dynamic Graph Neural Networks [6.1592549031654364]
ReIncは、大規模グラフ上で動的グラフニューラルネットワーク(DGNN)の効率的かつスケーラブルなトレーニングを可能にするように設計されたシステムである。 DGNNに固有のグラフニューラルネットワーク(GNN)とリカレントニューラルネットワーク(RNN)のユニークな組み合わせを活かした重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-01-25T23:16:03Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
AdaRC: Mitigating Graph Structure Shifts during Test-Time [66.40525136929398]
テスト時間適応(TTA)は、ソースドメインに再アクセスすることなく、トレーニング済みのモデルをターゲットドメインに適応できる能力によって注目を集めている。 AdaRCは,グラフの構造シフトに効果的かつ効率的な適応を意図した,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-10-09T15:15:40Z)
FG-SAT: Efficient Flow Graph for Encrypted Traffic Classification under Environment Shifts [19.76017462160707]
暗号化されたトラフィック分類は、ネットワークのセキュリティと管理において重要な役割を果たす。既存の手法では、トランスポート層機構とアプリケーションの間の重要なリンクを認識できない。 FG-SATは,環境変動を考慮した最初のエンドツーエンドのトラフィック解析手法である。
論文参考訳（メタデータ） (2024-08-26T09:11:36Z)
ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。また,ELGC-Net-LWも導入した。
論文参考訳（メタデータ） (2024-03-26T17:46:25Z)
Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文参考訳（メタデータ） (2023-06-27T16:15:15Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文参考訳（メタデータ） (2022-07-05T20:42:24Z)
IMDeception: Grouped Information Distilling Super-Resolution Network [7.6146285961466]
SISR(Single-Image-Super-Resolution)は、ディープラーニング手法の最近の進歩の恩恵を受けている古典的なコンピュータビジョン問題である。本稿では,機能集約のためのIICモジュールの代替として,GPRM(Global Progressive Refinement Module)を提案する。また,1秒あたりのパラメータ数や浮動小数点演算量(FLOPS)をさらに削減するために,GIDB(Grouped Information Distilling Blocks)を提案する。実験の結果,提案したネットワークは,パラメータ数やFLOPSが限られているにもかかわらず,最先端モデルと同等に動作していることがわかった。
論文参考訳（メタデータ） (2022-04-25T06:43:45Z)
Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文参考訳（メタデータ） (2021-02-18T13:49:28Z)
Caramel: Accelerating Decentralized Distributed Deep Learning with Computation Scheduling [1.5785002371773138]
Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。 Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
論文参考訳（メタデータ） (2020-04-29T08:32:33Z)
Decentralized SGD with Over-the-Air Computation [13.159777131162961]
無線ネットワークにおける分散数値勾配降下(DSGD)の性能について検討する。伝送は付加的なノイズや干渉を生じやすいと仮定する。 OAC-MAC方式はより少ない通信ラウンドでコンバージェンス性能が向上することを示す。
論文参考訳（メタデータ） (2020-03-06T15:33:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。