Fugu-MT 論文翻訳(概要): Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning

論文の概要: Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.14074v1
Date: Tue, 30 Aug 2022 08:44:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-31 13:37:30.813871
Title: Effective Multi-User Delay-Constrained Scheduling with Deep Recurrent Reinforcement Learning
Title（参考訳）: 深部繰り返し強化学習を用いたマルチユーザ遅延制約スケジューリング
Authors: Pihe Hu, Ling Pan, Yu Chen, Zhixuan Fang, Longbo Huang
Abstract要約: マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。 Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient (mathttRSD4$) という深部強化学習アルゴリズムを提案する。 $mathttRSD4$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的可観測性にも効率よく取り組み、ユーザレベルの分解とノードレベルを導入している。
参考スコア（独自算出の注目度）: 28.35473469490186
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Multi-user delay constrained scheduling is important in many real-world applications including wireless communication, live streaming, and cloud computing. Yet, it poses a critical challenge since the scheduler needs to make real-time decisions to guarantee the delay and resource constraints simultaneously without prior information of system dynamics, which can be time-varying and hard to estimate. Moreover, many practical scenarios suffer from partial observability issues, e.g., due to sensing noise or hidden correlation. To tackle these challenges, we propose a deep reinforcement learning (DRL) algorithm, named Recurrent Softmax Delayed Deep Double Deterministic Policy Gradient ($\mathtt{RSD4}$), which is a data-driven method based on a Partially Observed Markov Decision Process (POMDP) formulation. $\mathtt{RSD4}$ guarantees resource and delay constraints by Lagrangian dual and delay-sensitive queues, respectively. It also efficiently tackles partial observability with a memory mechanism enabled by the recurrent neural network (RNN) and introduces user-level decomposition and node-level merging to ensure scalability. Extensive experiments on simulated/real-world datasets demonstrate that $\mathtt{RSD4}$ is robust to system dynamics and partially observable environments, and achieves superior performances over existing DRL and non-DRL-based methods.
Abstract（参考訳）: マルチユーザ遅延制約スケジューリングは、無線通信、ライブストリーミング、クラウドコンピューティングを含む多くの現実世界アプリケーションにおいて重要である。しかし、スケジューラがシステムダイナミクスの事前の情報なしで遅延とリソースの制約を同時に保証するためにリアルタイムの意思決定を行う必要があるため、これは重大な課題となる。さらに、多くの実用的なシナリオは、例えばノイズや隠れた相関によって、部分的な可観測性の問題に悩まされる。これらの課題に対処するために,recurrent softmax delay deep double deterministic policy gradient (\mathtt{rsd4}$) という,部分観察マルコフ決定過程(pomdp)に基づくデータ駆動型アルゴリズムを提案する。 $\mathtt{RSD4}$は、それぞれLagrangianのデュアルと遅延に敏感なキューによるリソースと遅延の制約を保証する。また、リカレントニューラルネットワーク(RNN)によって実現されたメモリ機構により、部分的な可観測性に効率よく取り組み、拡張性を確保するためにユーザレベルの分解とノードレベルのマージを導入する。シミュレーション/実世界のデータセットに関する大規模な実験は、$\mathtt{RSD4}$がシステムダイナミクスや部分的に観測可能な環境に対して堅牢であることを示し、既存のDRLや非DRLベースの手法よりも優れたパフォーマンスを実現している。

関連論文リスト

TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。 TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文参考訳（メタデータ） (2025-12-13T07:53:14Z)
Offline Critic-Guided Diffusion Policy for Multi-User Delay-Constrained Scheduling [29.431945795881976]
本稿では,新しいオフライン強化学習アルゴリズムである underlineScheduling を提案する。プリコンパイルされたEmphofflineデータから、効率的なスケジューリングポリシを純粋に学習する。我々は、SOCDは、部分的に観測可能で大規模な環境を含む、様々なシステム力学に耐性があることを示します。
論文参考訳（メタデータ） (2025-01-22T15:13:21Z)
Latent feedback control of distributed systems in multiple scenarios through deep learning-based reduced order models [3.5161229331588095]
高次元分散システムの継続的な監視とリアルタイム制御は、望まれる物理的な振る舞いを保証するためにアプリケーションに不可欠である。完全順序モデルに依存する従来のフィードバック制御設計は、制御計算の遅延のため、これらの要求を満たすことができない。非線形非侵襲的深層学習に基づく還元順序モデル(DL-ROM)により強化されたリアルタイム閉ループ制御戦略を提案する。
論文参考訳（メタデータ） (2024-12-13T08:04:21Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。 TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文参考訳（メタデータ） (2024-05-23T18:19:47Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Dynamic Scheduling for Federated Edge Learning with Streaming Data [56.91063444859008]
我々は,長期的エネルギー制約のある分散エッジデバイスにおいて,トレーニングデータを時間とともにランダムに生成するフェデレーションエッジ学習(FEEL)システムを検討する。限られた通信リソースとレイテンシ要件のため、各イテレーションでローカルトレーニングプロセスに参加するのはデバイスのサブセットのみである。
論文参考訳（メタデータ） (2023-05-02T07:41:16Z)
Deep reinforcement learning under signal temporal logic constraints using Lagrangian relaxation [0.0]
一般的には,決定に制約を課すことができる。時間的高次タスクを完了させるために制約のある最適決定問題を考える。ラグランジアン緩和法を用いた二相制約DRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-21T00:56:25Z)
Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。 $nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文参考訳（メタデータ） (2021-12-01T22:55:23Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
Short-Term Load Forecasting Using Time Pooling Deep Recurrent Neural Network [0.0]
再生可能エネルギー源と電気自動車などの新興負荷をスマートグリッドに統合することは、配電系統管理に不確実性をもたらす。デマンドサイドマネジメント(DSM)は、不確実性を低減するためのアプローチの一つである。 Nonintrusive Load Monitoring (NILM) のようなアプリケーションは DSM をサポートすることができるが、高解像度データの正確な予測は必要である。高いボラティリティのため、一戸建て住宅のような単一負荷の場合、これは難しい。
論文参考訳（メタデータ） (2021-09-26T05:20:48Z)
Revisiting State Augmentation methods for Reinforcement Learning with Stochastic Delays [10.484851004093919]
本稿では,遅延を伴うマルコフ決定過程(MDP)の概念を正式に述べる。遅延MDPは、コスト構造が大幅に単純化された(遅延なしで)等価な標準MDPに変換可能であることを示す。この等価性を利用して、モデルフリーな遅延分解RLフレームワークを導出し、このフレームワーク上に構築された単純なRLアルゴリズムでさえ、動作や観測の遅延を伴う環境におけるほぼ最適報酬を達成することを示す。
論文参考訳（メタデータ） (2021-08-17T10:45:55Z)
Smart Scheduling based on Deep Reinforcement Learning for Cellular Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文参考訳（メタデータ） (2021-03-22T02:09:16Z)
Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource Allocation for Next-Generation Cellular Systems [4.227387975627387]
深部強化学習(DRL)に基づく連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。 DRLに基づくスケジューリングアルゴリズムは、オンライン計算の複雑さを低くしながら、他の代表的ベースライン方式よりも優れている。
論文参考訳（メタデータ） (2020-10-11T05:41:40Z)
Combining Deep Learning and Optimization for Security-Constrained Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。 SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2020-07-14T12:38:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。