論文の概要: Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report
- arxiv url: http://arxiv.org/abs/2404.04106v1
- Date: Fri, 5 Apr 2024 14:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 15:55:28.119224
- Title: Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report
- Title(参考訳): オンライン確率待ち行列ネットワーク最適化のための介入支援政策勾配法:技術報告
- Authors: Jerrod Wigmore, Brooke Shrader, Eytan Modiano,
- Abstract要約: 本研究は,従来の深層強化学習法に代わるオンライン深層強化学習制御(ODRLC)を提案する。
ODRLCはオンラインインタラクションを使用してキューイングネットワーク(SQN)の最適制御ポリシーを学習する
本稿では、ネットワークの安定性を確保するために、これらの介入支援ポリシーを設計する手法を提案する。
- 参考スコア(独自算出の注目度): 1.4201040196058878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (DRL) offers a powerful approach to training neural network control policies for stochastic queuing networks (SQN). However, traditional DRL methods rely on offline simulations or static datasets, limiting their real-world application in SQN control. This work proposes Online Deep Reinforcement Learning-based Controls (ODRLC) as an alternative, where an intelligent agent interacts directly with a real environment and learns an optimal control policy from these online interactions. SQNs present a challenge for ODRLC due to the unbounded nature of the queues within the network resulting in an unbounded state-space. An unbounded state-space is particularly challenging for neural network policies as neural networks are notoriously poor at extrapolating to unseen states. To address this challenge, we propose an intervention-assisted framework that leverages strategic interventions from known stable policies to ensure the queue sizes remain bounded. This framework combines the learning power of neural networks with the guaranteed stability of classical control policies for SQNs. We introduce a method to design these intervention-assisted policies to ensure strong stability of the network. Furthermore, we extend foundational DRL theorems for intervention-assisted policies and develop two practical algorithms specifically for ODRLC of SQNs. Finally, we demonstrate through experiments that our proposed algorithms outperform both classical control approaches and prior ODRLC algorithms.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は、確率的キューイングネットワーク(SQN)のためのニューラルネットワーク制御ポリシをトレーニングするための強力なアプローチを提供する。
しかし、従来のDRLメソッドはオフラインのシミュレーションや静的データセットに依存しており、SQN制御における実際のアプリケーションを制限する。
本研究は、知的エージェントが実環境と直接対話し、これらのオンラインインタラクションから最適な制御ポリシーを学ぶための代替手段として、オンライン深層強化学習ベース制御(ODRLC)を提案する。
SQNは、ネットワーク内のキューの非有界性のため、ODRLCに挑戦する。
境界のない状態空間は、ニューラルネットワークが目に見えない状態への外挿に弱いことで知られているため、ニューラルネットワークポリシーにとって特に困難である。
この課題に対処するために、我々は、既知の安定したポリシーからの戦略的介入を活用して、キューサイズがバウンドのままであることを保証する、介入支援フレームワークを提案する。
このフレームワークは、ニューラルネットワークの学習能力と、SQNの古典的な制御ポリシーの安定性を両立させる。
本稿では、ネットワークの安定性を確保するために、これらの介入支援ポリシーを設計する手法を提案する。
さらに、介入支援政策の基本DRL定理を拡張し、SQNのODRLCに特化した2つの実用的なアルゴリズムを開発した。
最後に,提案アルゴリズムが従来の制御手法とODRLCアルゴリズムより優れていることを示す。
関連論文リスト
- Differentiable Discrete Event Simulation for Queuing Network Control [7.965453961211742]
キューのネットワーク制御は、高い性、大きな状態とアクション空間、安定性の欠如など、異なる課題を生んでいる。
本稿では,異なる離散イベントシミュレーションに基づくポリシー最適化のためのスケーラブルなフレームワークを提案する。
本手法は,非定常環境で動作するシステムなど,現実的なシナリオを柔軟に処理することができる。
論文 参考訳(メタデータ) (2024-09-05T17:53:54Z) - Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。
HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-25T07:42:30Z) - Learning-Based Verification of Stochastic Dynamical Systems with Neural Network Policies [7.9898826915621965]
我々は、他のニューラルネットワークをトレーニングする検証手順を使用し、ポリシーがタスクを満足することを示す証明書として機能する。
リーチ回避タスクでは、この証明ネットワークがリーチ回避スーパーマーチンゲール(RASM)であることを示すのに十分である。
論文 参考訳(メタデータ) (2024-06-02T18:19:19Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Symbolic Distillation for Learned TCP Congestion Control [70.27367981153299]
TCP渋滞制御は、深層強化学習(RL)アプローチで大きな成功を収めた。
ブラックボックスポリシーは解釈可能性と信頼性に欠けており、しばしば従来のTCPデータパスの外で運用する必要がある。
本稿では,まず深部RLエージェントを訓練し,次にNNポリシーをホワイトボックスの軽量なルールに蒸留する,両世界の長所を達成するための新しい2段階のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-24T00:58:16Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - RL-QN: A Reinforcement Learning Framework for Optimal Control of
Queueing Systems [8.611328447624677]
モデルベース強化学習(RL)を用いて、待ち行列ネットワークの最適制御ポリシーを学習する。
しかし、従来のRLのアプローチでは、ネットワーク制御問題の非有界状態空間は扱えない。
我々は、状態空間の有限部分集合にモデルベースのRL法を適用するReinforcement Learning for Queueing Networks (RL-QN)と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-14T22:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。