論文の概要: Learning Mean-Field Control for Delayed Information Load Balancing in
Large Queuing Systems
- arxiv url: http://arxiv.org/abs/2208.04777v1
- Date: Tue, 9 Aug 2022 13:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 13:19:30.549232
- Title: Learning Mean-Field Control for Delayed Information Load Balancing in
Large Queuing Systems
- Title(参考訳): 大規模キューシステムにおける遅延情報負荷分散のための学習平均場制御
- Authors: Anam Tahir, Kai Cui, Heinz Koeppl
- Abstract要約: 本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムについて考察する。
我々は、最適負荷分散ソリューションを見つけるためにポリシー勾配強化学習アルゴリズムを適用した。
我々のアプローチはスケーラブルだが、Join-the-Shortest-Queue (JSQ)の最先端のパワー・オブ・ド・バリアントと比較すると、優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 26.405495663998828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a great increase in the capacity and parallel
processing power of data centers and cloud services. To fully utilize the said
distributed systems, optimal load balancing for parallel queuing architectures
must be realized. Existing state-of-the-art solutions fail to consider the
effect of communication delays on the behaviour of very large systems with many
clients. In this work, we consider a multi-agent load balancing system, with
delayed information, consisting of many clients (load balancers) and many
parallel queues. In order to obtain a tractable solution, we model this system
as a mean-field control problem with enlarged state-action space in discrete
time through exact discretization. Subsequently, we apply policy gradient
reinforcement learning algorithms to find an optimal load balancing solution.
Here, the discrete-time system model incorporates a synchronization delay under
which the queue state information is synchronously broadcasted and updated at
all clients. We then provide theoretical performance guarantees for our
methodology in large systems. Finally, using experiments, we prove that our
approach is not only scalable but also shows good performance when compared to
the state-of-the-art power-of-d variant of the Join-the-Shortest-Queue (JSQ)
and other policies in the presence of synchronization delays.
- Abstract(参考訳): 近年、データセンターやクラウドサービスの容量と並列処理能力が大幅に向上している。
上記の分散システムを十分に活用するには、並列キューアーキテクチャのための最適なロードバランシングを実現する必要がある。
既存の最先端ソリューションは、多くのクライアントを持つ非常に大きなシステムの振る舞いに対する通信遅延の影響を考慮できない。
本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムを提案する。
トラクタブルな解を得るために、我々はこのシステムを離散時間で状態-作用空間を拡大した平均場制御問題としてモデル化する。
次に,ポリシー勾配強化学習アルゴリズムを適用し,負荷分散の最適解を求める。
ここで、離散時間システムモデルは、全クライアントでキュー状態情報が同期ブロードキャストされ更新される同期遅延を組み込む。
次に,大規模システムにおける方法論の理論的性能保証を行う。
最後に,本手法がスケーラブルであるだけでなく,JSQ (Join-the-Shortest-Queue) の最先端のパワー・オブ・ド・バリアントと比較して,同期遅延の有無で優れた性能を示すことを示す。
関連論文リスト
- Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Queuing dynamics of asynchronous Federated Learning [15.26212962081762]
計算速度の異なるノードを用いた非同期フェデレーション学習機構について検討する。
本稿では、より複雑な遅延を低減できる中央サーバのための一様でないサンプリング方式を提案する。
画像分類問題に対する現状の非同期アルゴリズムよりも,提案手法の大幅な改善が明らかとなった。
論文 参考訳(メタデータ) (2024-02-12T18:32:35Z) - Learning Distributed and Fair Policies for Network Load Balancing as
Markov Potentia Game [4.892398873024191]
本稿では、複数のロードバランサ(LB)を配置するデータセンター(DC)におけるネットワーク負荷分散問題について検討する。
この問題の課題は、異種処理アーキテクチャと動的環境から成り立っている。
マルチエージェント負荷分散問題をマルコフポテンシャルゲームとして定式化し、そのポテンシャル関数としてのワークロード分布の公平さを慎重に適切に設計する。
ゲームのナッシュ平衡を近似するために,完全分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T08:29:02Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Blockchain-enabled Server-less Federated Learning [5.065631761462706]
我々は、(BC)技術によって強化された非同期サーバーレスフェデレートラーニングソリューションに焦点を当てる。
主に採用されているFLアプローチとは対照的に、クライアントがローカル更新を送信する際にモデルアグリゲーションを行う非同期手法を提唱する。
論文 参考訳(メタデータ) (2021-12-15T07:41:23Z) - Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under
Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。
得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。
本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:02Z) - BAGUA: Scaling up Distributed Learning with System Relaxations [31.500494636704598]
BAGUAは分散データ並列トレーニングのための新しい通信フレームワークである。
新しいシステム設計によって、BAGUAは様々な最先端の分散学習アルゴリズムを実装し拡張する能力を持つ。
最大16台のマシンを持つ運用クラスタでは、BAGUAは、エンドツーエンドのトレーニング時間において、PyTorch-DDP、Horovod、BytePSを上回ります。
論文 参考訳(メタデータ) (2021-07-03T21:27:45Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。