論文の概要: Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling
- arxiv url: http://arxiv.org/abs/2105.00210v1
- Date: Sat, 1 May 2021 10:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 08:28:35.029873
- Title: Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling
- Title(参考訳): ネットワークスケジューリングのための勾配に基づく不適切な強化学習
- Authors: Mohammani Zaki, Avi Mohan, Aditya Gopalan, Shie Mannor
- Abstract要約: パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
- 参考スコア(独自算出の注目度): 60.48359567964899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of scheduling in constrained queueing networks with a
view to minimizing packet delay. Modern communication systems are becoming
increasingly complex, and are required to handle multiple types of traffic with
widely varying characteristics such as arrival rates and service times. This,
coupled with the need for rapid network deployment, render a bottom up approach
of first characterizing the traffic and then devising an appropriate scheduling
protocol infeasible.
In contrast, we formulate a top down approach to scheduling where, given an
unknown network and a set of scheduling policies, we use a policy gradient
based reinforcement learning algorithm that produces a scheduler that performs
better than the available atomic policies. We derive convergence results and
analyze finite time performance of the algorithm. Simulation results show that
the algorithm performs well even when the arrival rates are nonstationary and
can stabilize the system even when the constituent policies are unstable.
- Abstract(参考訳): パケット遅延を最小限に抑えた制約待ち行列ネットワークにおけるスケジューリングの問題を考える。
現代の通信システムはますます複雑化しており、到着率やサービス時間など、様々な特性を持つ複数の種類のトラフィックを扱う必要がある。
これは、高速なネットワーク展開の必要性と相まって、トラフィックを最初に特徴付け、次に適切なスケジューリングプロトコルを設計するボトムアップアプローチを適用します。
これとは対照的に、我々は、未知のネットワークと一連のスケジューリングポリシーが与えられた場合に、利用可能なアトミックポリシーよりも優れた機能を持つスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する、スケジューリングのためのトップダウンアプローチを定式化する。
収束結果を導出し,アルゴリズムの有限時間性能を解析する。
シミュレーションの結果,到着率が非定常であってもアルゴリズムは良好に動作し,構成方針が不安定であっても安定化できることがわかった。
関連論文リスト
- Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。
限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文 参考訳(メタデータ) (2023-05-02T07:41:16Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under
Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。
得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。
本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:02Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z) - An Online Learning Approach to Optimizing Time-Varying Costs of AoI [26.661352924641285]
通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-05-27T18:10:56Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z) - Learning-NUM: Network Utility Maximization with Unknown Utility
Functions and Queueing Delay [29.648462942501084]
ユーザの実用関数が未知の apriori である新しい NUM フレームワークである Learning-NUM を提案する。
最適な動的ポリシーによって得られる期待される全効用は、静的最適化問題に対する解によって上限される。
フィードバック遅延を処理するために、アルゴリズムを並列インスタンスパラダイムに組み込み、$tildeO(T3/4)$-regret、すなわち最良の動的ポリシーによって得られる期待されるユーティリティと私たちのポリシーの違いを$tildeO(Tilde)で実現するポリシーを作成します。
論文 参考訳(メタデータ) (2020-12-16T19:36:25Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。