論文の概要: RL-QN: A Reinforcement Learning Framework for Optimal Control of
Queueing Systems
- arxiv url: http://arxiv.org/abs/2011.07401v2
- Date: Thu, 7 Apr 2022 17:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 14:04:33.397374
- Title: RL-QN: A Reinforcement Learning Framework for Optimal Control of
Queueing Systems
- Title(参考訳): RL-QN:待ち行列システムの最適制御のための強化学習フレームワーク
- Authors: Bai Liu, Qiaomin Xie, Eytan Modiano
- Abstract要約: モデルベース強化学習(RL)を用いて、待ち行列ネットワークの最適制御ポリシーを学習する。
しかし、従来のRLのアプローチでは、ネットワーク制御問題の非有界状態空間は扱えない。
我々は、状態空間の有限部分集合にモデルベースのRL法を適用するReinforcement Learning for Queueing Networks (RL-QN)と呼ばれる新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.611328447624677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advance of information technology, network systems have become
increasingly complex and hence the underlying system dynamics are often unknown
or difficult to characterize. Finding a good network control policy is of
significant importance to achieve desirable network performance (e.g., high
throughput or low delay). In this work, we consider using model-based
reinforcement learning (RL) to learn the optimal control policy for queueing
networks so that the average job delay (or equivalently the average queue
backlog) is minimized. Traditional approaches in RL, however, cannot handle the
unbounded state spaces of the network control problem. To overcome this
difficulty, we propose a new algorithm, called Reinforcement Learning for
Queueing Networks (RL-QN), which applies model-based RL methods over a finite
subset of the state space, while applying a known stabilizing policy for the
rest of the states. We establish that the average queue backlog under RL-QN
with an appropriately constructed subset can be arbitrarily close to the
optimal result. We evaluate RL-QN in dynamic server allocation, routing and
switching problems. Simulation results show that RL-QN minimizes the average
queue backlog effectively.
- Abstract(参考訳): 情報技術の急速な進歩により、ネットワークシステムはますます複雑になり、基盤となるシステムのダイナミクスはしばしば未知や特徴付けが難しい。
優れたネットワーク制御ポリシーを見つけることは、望ましいネットワーク性能(例えば、高いスループットや低遅延)を達成するために非常に重要である。
本研究では,モデルに基づく強化学習(RL)を用いて待ち行列ネットワークの最適制御ポリシーを学習し,平均ジョブ遅延(あるいはそれに相当する平均キューバックログ)を最小限に抑えることを検討する。
しかし、rlの伝統的なアプローチは、ネットワーク制御問題の無制限状態空間を扱えない。
この課題を克服するため,我々は,状態空間の有限部分集合に対してモデルベースrl法を適用しながら,他の状態に対して既知の安定化ポリシーを適用しながら,待ち行列ネットワークのための強化学習(rl-qn)と呼ばれる新しいアルゴリズムを提案する。
本稿では, RL-QN のキューバックログの平均値と, 適切に構成されたサブセットが任意に最適な結果に近づくことを確かめる。
動的サーバ割り当て,ルーティング,スイッチング問題におけるRL-QNの評価を行った。
シミュレーションの結果,RL-QNは平均キューバックログを効果的に最小化することがわかった。
関連論文リスト
- Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Proactive and AoI-aware Failure Recovery for Stateful NFV-enabled
Zero-Touch 6G Networks: Model-Free DRL Approach [0.0]
ゼロタッチPFR(ZT-PFR)と呼ばれるモデルフリー深部強化学習(DRL)に基づくアクティブ障害回復フレームワークを提案する。
ZT-PFRは、ネットワーク機能仮想化(NFV)対応ネットワークにおける組み込みステートフル仮想ネットワーク機能(VNF)用です。
論文 参考訳(メタデータ) (2021-02-02T21:40:35Z) - Dynamic RAN Slicing for Service-Oriented Vehicular Networks via
Constrained Learning [40.5603189901241]
品質の異なる車両用インターネット(IoV)サービスにおける無線アクセスネットワーク(RAN)スライシング問題について検討する。
無線スペクトルと演算資源を動的に割り当てる動的RANスライシングフレームワークを提案する。
RAWSは,ベンチマークと比較すると,要求を高い確率で満たしながら,システムコストを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2020-12-03T15:08:38Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。