論文の概要: Nara: Learning Network-Aware Resource Allocation Algorithms for Cloud
Data Centres
- arxiv url: http://arxiv.org/abs/2106.02412v1
- Date: Fri, 4 Jun 2021 10:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 23:06:42.258756
- Title: Nara: Learning Network-Aware Resource Allocation Algorithms for Cloud
Data Centres
- Title(参考訳): nara: クラウドデータセンタのためのネットワーク対応リソース割り当てアルゴリズムの学習
- Authors: Zacharaya Shabka, Georgios Zervas
- Abstract要約: Naraは強化学習とグラフニューラルネットワーク(GNN)に基づくフレームワークで、ネットワーク対応のアロケーションポリシを学習する。
トレーニング中に見られるDCNよりも10倍の計算ノードのオーダーで、DCNにデプロイされた場合、最高のベースラインよりも最大33%多くのリクエストを受信できる。
トレーニング中に見られる以上のサーバ数で、DCN上でのポリシーのパフォーマンスを維持することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data centres (DCs) underline many prominent future technological trends such
as distributed training of large scale machine learning models and
internet-of-things based platforms. DCs will soon account for over 3\% of
global energy demand, so efficient use of DC resources is essential. Robust DC
networks (DCNs) are essential to form the large scale systems needed to handle
this demand, but can bottleneck how efficiently DC-server resources can be used
when servers with insufficient connectivity between them cannot be jointly
allocated to a job. However, allocating servers' resources whilst accounting
for their inter-connectivity maps to an NP-hard combinatorial optimisation
problem, and so is often ignored in DC resource management schemes. We present
Nara, a framework based on reinforcement learning (RL) and graph neural
networks (GNN) to learn network-aware allocation policies that increase the
number of requests allocated over time compared to previous methods. Unique to
our solution is the use of a GNN to generate representations of server-nodes in
the DCN, which are then interpreted as actions by a RL policy-network which
chooses from which servers resources will be allocated to incoming requests.
Nara is agnostic to the topology size and shape and is trained end-to-end. The
method can accept up to 33\% more requests than the best baseline when deployed
on DCNs with up to the order of $10\times$ more compute nodes than the DCN seen
during training and is able to maintain its policy's performance on DCNs with
the order of $100\times$ more servers than seen during training. It also
generalises to unseen DCN topologies with varied network structure and unseen
request distributions without re-training.
- Abstract(参考訳): データセンター(DC)は、大規模機械学習モデルの分散トレーニングやインターネット・オブ・シング・ベースのプラットフォームなど、多くの先進的な技術動向を浮き彫りにしている。
DCはすぐに世界のエネルギー需要の35%以上を占めるので、DCリソースの効率的な利用が不可欠である。
ロバストDCネットワーク(DCN)は、この需要に対処するために必要な大規模システムを形成するために不可欠であるが、それら間の接続が不十分なサーバがジョブに共同で割り当てられない場合に、いかに効率的にDCサーバリソースを使用できるかをボトルネックにすることができる。
しかしながら、相互接続マップを考慮しつつサーバのリソースをnp-hard combinatorial optimization問題に割り当てることにより、dcリソース管理方式では無視されることが多い。
本稿では,強化学習(RL)とグラフニューラルネットワーク(GNN)に基づくフレームワークであるNaraを紹介した。
我々のソリューションに共通しているのは、GNNを使用してDCN内のサーバノードの表現を生成し、どのサーバリソースを受信要求に割り当てるかを選択するRLポリシーネットワークによってアクションとして解釈されることです。
奈良はトポロジーの大きさや形状に無関係で、エンドツーエンドで訓練されている。
このメソッドは、トレーニング中に見られるDCNよりも最大10\times$多くの計算ノードでDCNにデプロイされた場合、最高のベースラインよりも最大33\%多くのリクエストを受け付けることができ、トレーニング中に見られる100\times$以上のサーバで、DCN上でのポリシーのパフォーマンスを維持することができる。
また、ネットワーク構造や要求分布の異なるDCNトポロジを、再学習することなく一般化する。
関連論文リスト
- Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Task-Oriented Edge Networks: Decentralized Learning Over Wireless
Fronthaul [13.150679121986792]
本稿では,複数のエッジノードがネットワーククラウド上で強力なディープニューラルネットワーク(DNN)の助けを借りて機械学習タスクを実行するタスク指向エッジネットワークについて検討する。
論文 参考訳(メタデータ) (2023-12-03T05:24:28Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Network Aware Compute and Memory Allocation in Optically Composable Data
Centres with Deep Reinforcement Learning and Graph Neural Networks [0.0]
リソースを分離したデータセンタアーキテクチャは、データセンタ内でリソースをリモートにプールする手段を約束する。
データセンターネットワーク(DCN)における光スイッチング回路のバックボーンを用いて,これを実現する方法を示す。
本稿では, エンフディープ強化学習を用いて, 効率的なエンフネットワーク認識と, エンフトポロジ的にスケール可能なアロケーションポリシをエンドツーエンドに学習する方法を示す。
論文 参考訳(メタデータ) (2022-10-26T09:46:50Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - HeterPS: Distributed Deep Learning With Reinforcement Learning Based
Scheduling in Heterogeneous Environments [37.55572042288321]
ニューラルネットワーク(DNN)のトレーニングプロセスは、多くのスパースな特徴を持つ大規模な入力データを扱うのが一般的である。
Paddle-HeterPSは分散アーキテクチャとReinforcement Reinforcement (RL)ベースのスケジューリング手法で構成されている。
パドル・ヘターPSはスループット(14.5倍高い)と金銭的コスト(312.3%小さい)で最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2021-11-20T17:09:15Z) - Learn Locally, Correct Globally: A Distributed Algorithm for Training
Graph Neural Networks [22.728439336309858]
通信効率の良い分散GNNトレーニング手法であるtextLearn Locally, Correct Globally$ (LLCG)を提案する。
LLCGは、異なるマシン間のノード間の依存関係を無視してGNNをローカルデータでトレーニングし、その後、定期的なモデル平均化のためにローカルにトレーニングされたモデルをサーバに送信する。
我々は,GNNを訓練するための周期モデル平均化による分散手法の収束度を厳密に分析し,周期モデル平均化を適用するが,ノード間の依存性を無視することは既約残差に悩まされることを示す。
論文 参考訳(メタデータ) (2021-11-16T03:07:01Z) - BFTrainer: Low-Cost Training of Neural Networks on Unfillable
Supercomputer Nodes [0.8201100713224002]
FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。
我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
論文 参考訳(メタデータ) (2021-06-22T22:53:19Z) - Resource Allocation via Graph Neural Networks in Free Space Optical
Fronthaul Networks [119.81868223344173]
本稿では,自由空間光(FSO)フロントホールネットワークにおける最適資源割り当てについて検討する。
我々は、FSOネットワーク構造を利用するために、ポリシーパラメータ化のためのグラフニューラルネットワーク(GNN)を検討する。
本アルゴリズムは,システムモデルに関する知識が不要なモデルフリーでGNNを訓練するために開発された。
論文 参考訳(メタデータ) (2020-06-26T14:20:48Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。