論文の概要: Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.14074v1
- Date: Tue, 30 Aug 2022 08:44:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-31 13:37:30.813871
- Title: Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent
Reinforcement Learning
- Title(参考訳): 深部繰り返し強化学習を用いたマルチユーザ遅延制約スケジューリング
- Authors: Pihe Hu, Ling Pan, Yu Chen, Zhixuan Fang, Longbo Huang
- Abstract要約: マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。
$mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
- 参考スコア(独自算出の注目度): 28.35473469490186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-user delay constrained scheduling is important in many real-world
applications including wireless communication, live streaming, and cloud
computing. Yet, it poses a critical challenge since the scheduler needs to make
real-time decisions to guarantee the delay and resource constraints
simultaneously without prior information of system dynamics, which can be
time-varying and hard to estimate. Moreover, many practical scenarios suffer
from partial observability issues, e.g., due to sensing noise or hidden
correlation. To tackle these challenges, we propose a deep reinforcement
learning (DRL) algorithm, named Recurrent Softmax Delayed Deep Double
Deterministic Policy Gradient ($\mathtt{RSD4}$), which is a data-driven method
based on a Partially Observed Markov Decision Process (POMDP) formulation.
$\mathtt{RSD4}$ guarantees resource and delay constraints by Lagrangian dual
and delay-sensitive queues, respectively. It also efficiently tackles partial
observability with a memory mechanism enabled by the recurrent neural network
(RNN) and introduces user-level decomposition and node-level merging to ensure
scalability. Extensive experiments on simulated/real-world datasets demonstrate
that $\mathtt{RSD4}$ is robust to system dynamics and partially observable
environments, and achieves superior performances over existing DRL and
non-DRL-based methods.
- Abstract(参考訳): マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。
しかし、スケジューラがシステムダイナミクスの事前の情報なしで遅延とリソースの制約を同時に保証するためにリアルタイムの意思決定を行う必要があるため、これは重大な課題となる。
さらに、多くの実用的なシナリオは、例えばノイズや隠れた相関によって、部分的な可観測性の問題に悩まされる。
これらの課題に対処するために,recurrent softmax delay deep double deterministic policy gradient (\mathtt{rsd4}$) という,部分観察マルコフ決定過程(pomdp)に基づくデータ駆動型アルゴリズムを提案する。
$\mathtt{RSD4}$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。
また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的な可観測性に効率よく取り組み、拡張性を確保するためにユーザレベルの分解とノードレベルのマージを導入する。
シミュレーション/実世界のデータセットに関する大規模な実験は、$\mathtt{RSD4}$がシステムダイナミクスや部分的に観測可能な環境に対して堅牢であることを示し、既存のDRLや非DRLベースの手法よりも優れたパフォーマンスを実現している。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Deep reinforcement learning under signal temporal logic constraints
using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。
時間的高次タスクを完了させるために制約のある最適決定問題を考える。
ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-21T00:56:25Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural
Network [0.0]
再生可能エネルギー源と電気自動車などの新興負荷をスマートグリッドに統合することは、配電系統管理に不確実性をもたらす。デマンドサイドマネジメント(DSM)は、不確実性を低減するためのアプローチの一つである。
Nonintrusive Load Monitoring (NILM) のようなアプリケーションは DSM をサポートすることができるが、高解像度データの正確な予測は必要である。
高いボラティリティのため、一戸建て住宅のような単一負荷の場合、これは難しい。
論文 参考訳(メタデータ) (2021-09-26T05:20:48Z) - Revisiting State Augmentation methods for Reinforcement Learning with
Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。
遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。
この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文 参考訳(メタデータ) (2021-08-17T10:45:55Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource
Allocation for Next-Generation Cellular Systems [4.227387975627387]
深部強化学習(DRL)に基づく連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。
DRLに基づくスケジューリングアルゴリズムは、オンライン計算の複雑さを低くしながら、他の代表的ベースライン方式よりも優れている。
論文 参考訳(メタデータ) (2020-10-11T05:41:40Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。