論文の概要: Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling
- arxiv url: http://arxiv.org/abs/2406.14141v1
- Date: Thu, 20 Jun 2024 09:34:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:31:01.269406
- Title: Online Learning of Weakly Coupled MDP Policies for Load Balancing and Auto Scaling
- Title(参考訳): 負荷分散と自動スケーリングのための弱結合MDPポリシのオンライン学習
- Authors: S. R. Eshwar, Lucas Lopes Felipe, Alexandre Reiffers-Masson, Daniel Sadoc Menasché, Gugan Thoppe,
- Abstract要約: 本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず、線形プログラム(LP)を介して解ける弱結合マルコフ決定過程(MDP)として問題を提示する。
LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて,オンラインパラメータ学習とポリシー最適化の問題に対処するために拡張する。
- 参考スコア(独自算出の注目度): 42.6574685545681
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Load balancing and auto scaling are at the core of scalable, contemporary systems, addressing dynamic resource allocation and service rate adjustments in response to workload changes. This paper introduces a novel model and algorithms for tuning load balancers coupled with auto scalers, considering bursty traffic arriving at finite queues. We begin by presenting the problem as a weakly coupled Markov Decision Processes (MDP), solvable via a linear program (LP). However, as the number of control variables of such LP grows combinatorially, we introduce a more tractable relaxed LP formulation, and extend it to tackle the problem of online parameter learning and policy optimization using a two-timescale algorithm based on the LP Lagrangian.
- Abstract(参考訳): ロードバランシングと自動スケーリングは、ワークロードの変更に応じて動的リソース割り当てとサービスレート調整に対処する、スケーラブルで現代的なシステムの中核にあります。
本稿では,負荷バランサとオートスケーラを併用した新しいモデルとアルゴリズムを提案する。
まず,この問題を線形プログラム (LP) で解ける弱結合マルコフ決定過程 (MDP) として提示することから始める。
しかし、そのようなLPの制御変数の数が組合せ的に増加するにつれて、よりゆるやかなLP定式化を導入し、LPラグランジアンに基づく2時間スケールのアルゴリズムを用いて、オンラインパラメータ学習とポリシー最適化の問題に取り組むよう拡張する。
関連論文リスト
- Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks [7.182684187774442]
本稿では,無線ネットワークにおけるURLLC(Ultra Reliable Low Communications)の問題に対処する。
本稿では,厳密な期限を含む非直交多重アクセス(NOMA)アップリンクURLLCスケジューリング問題を解くために,DRL(Deep Reinforcement Learning)スケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-28T12:18:02Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Learning-Assisted Algorithm Unrolling for Online Optimization with
Budget Constraints [27.84415856657607]
我々はLAAU(Learning-Assisted Algorithm Unrolling)と呼ばれる新しい機械学習支援アンローリング手法を提案する。
バックプロパゲーションによる効率的なトレーニングには、時間とともに決定パイプラインの勾配を導出します。
また、トレーニングデータがオフラインで利用可能で、オンラインで収集できる場合の2つのケースの平均的なコスト境界も提供します。
論文 参考訳(メタデータ) (2022-12-03T20:56:29Z) - Off-line approximate dynamic programming for the vehicle routing problem
with stochastic customers and demands via decentralized decision-making [0.0]
本稿では,顧客の位置と需要が不確実な車両経路問題(VRP)の変種について検討する。
目的は、車両の容量と時間制限を満たしながら、提供された要求を最大化することである。
本稿では,Replay MemoryやDouble Q Networkといった最先端のアクセラレーション技術を用いたQラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-09-21T14:28:09Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Dynamic RAN Slicing for Service-Oriented Vehicular Networks via
Constrained Learning [40.5603189901241]
品質の異なる車両用インターネット(IoV)サービスにおける無線アクセスネットワーク(RAN)スライシング問題について検討する。
無線スペクトルと演算資源を動的に割り当てる動的RANスライシングフレームワークを提案する。
RAWSは,ベンチマークと比較すると,要求を高い確率で満たしながら,システムコストを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2020-12-03T15:08:38Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - The reinforcement learning-based multi-agent cooperative approach for
the adaptive speed regulation on a metallurgical pickling line [0.0]
提案手法は,基本アルゴリズムとしての数学的モデリングと協調型マルチエージェント強化学習システムを組み合わせたものである。
我々は、重工業における現実的なタスクに対して、Deep Q-Learningをどのように適用できるかを実証し、既存の自動化システムを大幅に改善した。
論文 参考訳(メタデータ) (2020-08-16T15:10:39Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。