Fugu-MT 論文翻訳(概要): Knowledge-Assisted Deep Reinforcement Learning in 5G Scheduler Design: From Theoretical Framework to Implementation

論文の概要: Knowledge-Assisted Deep Reinforcement Learning in 5G Scheduler Design: From Theoretical Framework to Implementation

arxiv url: http://arxiv.org/abs/2009.08346v2
Date: Wed, 3 Feb 2021 06:13:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 12:15:33.594172
Title: Knowledge-Assisted Deep Reinforcement Learning in 5G Scheduler Design: From Theoretical Framework to Implementation
Title（参考訳）: 5Gスケジューリング設計における知識支援深層強化学習:理論フレームワークから実装まで
Authors: Zhouyou Gu and Changyang She and Wibowo Hardjawana and Simon Lumb and David McKechnie and Todd Essery and Branka Vucetic
Abstract要約: 5Gネットワークにおけるスケジューラ設計のための知識支援深層強化学習アルゴリズムを開発した。 DDPGの簡単な実装は、徐々に収束し、QoS性能が悪く、現実世界の5Gシステムでは実装できないことを示す。
参考スコア（独自算出の注目度）: 34.5517138843888
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we develop a knowledge-assisted deep reinforcement learning (DRL) algorithm to design wireless schedulers in the fifth-generation (5G) cellular networks with time-sensitive traffic. Since the scheduling policy is a deterministic mapping from channel and queue states to scheduling actions, it can be optimized by using deep deterministic policy gradient (DDPG). We show that a straightforward implementation of DDPG converges slowly, has a poor quality-of-service (QoS) performance, and cannot be implemented in real-world 5G systems, which are non-stationary in general. To address these issues, we propose a theoretical DRL framework, where theoretical models from wireless communications are used to formulate a Markov decision process in DRL. To reduce the convergence time and improve the QoS of each user, we design a knowledge-assisted DDPG (K-DDPG) that exploits expert knowledge of the scheduler design problem, such as the knowledge of the QoS, the target scheduling policy, and the importance of each training sample, determined by the approximation error of the value function and the number of packet losses. Furthermore, we develop an architecture for online training and inference, where K-DDPG initializes the scheduler off-line and then fine-tunes the scheduler online to handle the mismatch between off-line simulations and non-stationary real-world systems. Simulation results show that our approach reduces the convergence time of DDPG significantly and achieves better QoS than existing schedulers (reducing 30% ~ 50% packet losses). Experimental results show that with off-line initialization, our approach achieves better initial QoS than random initialization and the online fine-tuning converges in few minutes.
Abstract（参考訳）: 本稿では,第5世代(5G)セルネットワークにおける無線スケジューラを時間に敏感なトラフィックで設計するための知識支援深部強化学習(DRL)アルゴリズムを提案する。スケジューリングポリシは、チャネル状態とキュー状態からスケジューリングアクションへの決定論的マッピングであるため、Deep Deterministic Policy gradient (DDPG)を用いて最適化することができる。 DDPGの簡単な実装は、徐々に収束し、QoS性能が悪く、一般に静止しない現実世界の5Gシステムでは実装できないことを示す。これらの問題に対処するために,無線通信理論モデルを用いてDRLのマルコフ決定過程を定式化する理論DRLフレームワークを提案する。ユーザの収束時間を短縮し、各ユーザのqosを改善するために、qosの知識、目標スケジューリングポリシー、各トレーニングサンプルの重要性など、スケジューラ設計問題の専門知識を活用した知識支援ddpg(k-ddpg)を、値関数の近似誤差とパケット損失数で決定する。さらに、オンライントレーニングと推論のためのアーキテクチャを開発し、K-DDPGはスケジューラをオフラインに初期化し、スケジューラをオンラインで微調整し、オフラインシミュレーションと非静止現実システム間のミスマッチを処理する。シミュレーションの結果,提案手法はDDPGの収束時間を大幅に短縮し,既存のスケジューラよりもQoSが優れている(パケット損失が30%程度減少する)。実験の結果,オフライン初期化ではランダム初期化よりもQoSが優れ,オンライン微調整は数分で収束することがわかった。

関連論文リスト

Intent-Aware DRL-Based Uplink Dynamic Scheduler for 5G-NR [30.146175299047325]
産業用インターネット・オブ・モノのユーザ機器(IIoT UE)を意図的(QoS要求品質)とランダムなトラフィック到着で支援する問題について検討する。利用可能な通信資源のスケジューリング方法を学ぶために,DRLに基づく時間周波数リソースの集中型動的スケジューラを提案する。
論文参考訳（メタデータ） (2024-03-27T08:57:15Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Structure-Enhanced DRL for Optimal Transmission Scheduling [43.801422320012286]
本稿では,遠隔推定システムの送信スケジューリング問題に焦点をあてる。システムの最適スケジューリングのための構造強化型深層強化学習フレームワークを開発した。特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。
論文参考訳（メタデータ） (2022-12-24T10:18:38Z)
Graph Reinforcement Learning-based CNN Inference Offloading in Dynamic Edge Computing [93.67044879636093]
本稿では,動的マルチアクセスエッジコンピューティング(MEC)ネットワークにおけるCNN推論の計算オフロードについて述べる。本稿では,グラフ強化学習に基づく早期退避機構(GRLE)を提案する。実験の結果,GRLEはグラフ強化学習(GRL)の3.41倍,DROOEの1.45倍の平均精度が得られた。
論文参考訳（メタデータ） (2022-10-24T07:17:20Z)
GCNScheduler: Scheduling Distributed Computing Applications using Graph Convolutional Networks [12.284934135116515]
グラフ畳み込み型ネットワークベーススケジューラ(GCNScheduler)を提案する。タスク間データ依存関係構造とネットワーク設定を慎重に入力グラフに統合することにより、GCNSchedulerは所定の目的のためにタスクを効率的にスケジュールすることができる。従来のHEFTアルゴリズムよりもマインパンが良く、スループット指向のHEFTとほぼ同じスループットであることを示す。
論文参考訳（メタデータ） (2021-10-22T01:54:10Z)
Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。深層強化学習(DRL)に基づくフレームワークを開発した。 DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文参考訳（メタデータ） (2021-09-26T11:27:12Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Smart Scheduling based on Deep Reinforcement Learning for Cellular Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文参考訳（メタデータ） (2021-03-22T02:09:16Z)
Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文参考訳（メタデータ） (2020-06-16T05:51:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。