論文の概要: Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks
- arxiv url: http://arxiv.org/abs/2308.14523v1
- Date: Mon, 28 Aug 2023 12:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 14:07:21.277375
- Title: Deep Reinforcement Learning for Uplink Scheduling in NOMA-URLLC Networks
- Title(参考訳): NOMA-URLLCネットワークにおけるアップリンクスケジューリングのための深層強化学習
- Authors: Beno\^it-Marie Robaglia, Marceau Coupechoux, Dimitrios Tsilimantos
- Abstract要約: 本稿では,無線ネットワークにおけるURLLC(Ultra Reliable Low Communications)の問題に対処する。
本稿では,厳密な期限を含む非直交多重アクセス(NOMA)アップリンクURLLCスケジューリング問題を解くために,DRL(Deep Reinforcement Learning)スケジューリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.182684187774442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article addresses the problem of Ultra Reliable Low Latency
Communications (URLLC) in wireless networks, a framework with particularly
stringent constraints imposed by many Internet of Things (IoT) applications
from diverse sectors. We propose a novel Deep Reinforcement Learning (DRL)
scheduling algorithm, named NOMA-PPO, to solve the Non-Orthogonal Multiple
Access (NOMA) uplink URLLC scheduling problem involving strict deadlines. The
challenge of addressing uplink URLLC requirements in NOMA systems is related to
the combinatorial complexity of the action space due to the possibility to
schedule multiple devices, and to the partial observability constraint that we
impose to our algorithm in order to meet the IoT communication constraints and
be scalable. Our approach involves 1) formulating the NOMA-URLLC problem as a
Partially Observable Markov Decision Process (POMDP) and the introduction of an
agent state, serving as a sufficient statistic of past observations and
actions, enabling a transformation of the POMDP into a Markov Decision Process
(MDP); 2) adapting the Proximal Policy Optimization (PPO) algorithm to handle
the combinatorial action space; 3) incorporating prior knowledge into the
learning agent with the introduction of a Bayesian policy. Numerical results
reveal that not only does our approach outperform traditional multiple access
protocols and DRL benchmarks on 3GPP scenarios, but also proves to be robust
under various channel and traffic configurations, efficiently exploiting
inherent time correlations.
- Abstract(参考訳): 本稿では,さまざまな分野のiot(internet of things, モノのインターネット)アプリケーションによって課される厳格な制約を持つフレームワークである無線ネットワークにおける,超信頼性の低い低レイテンシ通信(urllc)の問題について述べる。
我々は,厳密な期限を含む非直交多重アクセス(NOMA)アップリンクURLLCスケジューリング問題を解決するために,NOMA-PPO(Deep Reinforcement Learning)スケジューリングアルゴリズムを提案する。
NOMAシステムにおけるアップリンクURLLC要求に対処する課題は、複数のデバイスをスケジュールする可能性によるアクション空間の組合せ複雑性と、IoT通信の制約を満たすためにアルゴリズムに課される部分的可観測性制約に関連している。
我々のアプローチは
1) NOMA-URLLC問題を部分観測可能なマルコフ決定プロセス(PMMDP)として定式化し、エージェント状態の導入により過去の観測と行動の十分な統計量となり、PMMDPをマルコフ決定プロセス(MDP)に変換することができる。
2) 近位政策最適化(ppo)アルゴリズムを組合せ作用空間に対応させる。
3)ベイズ政策の導入により,事前知識を学習エージェントに取り入れること。
数値解析の結果,従来のマルチアクセスプロトコルやDRLベンチマークを3GPPのシナリオで上回るだけでなく,様々なチャネルやトラフィック構成下では堅牢であり,固有時間相関を効果的に活用できることが判明した。
関連論文リスト
- Compiler for Distributed Quantum Computing: a Reinforcement Learning Approach [6.347685922582191]
本稿では,EPRペアの生成とルーティングを共同で管理することで,実行時間の短縮を優先する新しいコンパイラを提案する。
本稿では, 量子回路の絡み合い生成の性質と動作要求を考慮し, リアルタイムかつ適応的なコンパイラ設計手法を提案する。
i)マルコフ決定過程(MDP)の定式化を用いてDQCの最適コンパイラをモデル化し、最適アルゴリズムの存在を確立し、(ii)この最適コンパイラを近似するために制約付き強化学習(RL)法を導入する。
論文 参考訳(メタデータ) (2024-04-25T23:03:20Z) - Multi-Agent Reinforcement Learning for Network Routing in Integrated
Access Backhaul Networks [0.0]
IABネットワークの遅延を最小化しながらパケット到着率を最大化することを目的としている。
この問題を解決するため、我々はマルチエージェントで部分的に観察されたマルコフ決定プロセス(POMD)を開発した。
A2Cは他の強化学習アルゴリズムよりも優れており、ネットワーク効率が向上し、利己的エージェントの挙動が低下することを示した。
論文 参考訳(メタデータ) (2023-05-12T13:03:26Z) - Semi-Infinitely Constrained Markov Decision Processes and Efficient
Reinforcement Learning [17.04643707688075]
通常のCMDPの場合のように、有限個の制約ではなく制約の連続性を考える。
我々はSI-CRLとSI-CPOと呼ぶSICMDPのための2つの強化学習アルゴリズムを考案した。
我々の知る限り、我々は、制約付き強化学習問題を解決するために、半無限プログラミング(SIP)のツールを最初に適用しました。
論文 参考訳(メタデータ) (2023-04-29T12:52:38Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - State-Augmented Learnable Algorithms for Resource Management in Wireless
Networks [124.89036526192268]
本稿では,無線ネットワークにおける資源管理問題を解決するためのステート拡張アルゴリズムを提案する。
提案アルゴリズムは, RRM決定を可能, ほぼ最適に行うことができることを示す。
論文 参考訳(メタデータ) (2022-07-05T18:02:54Z) - How to Minimize the Weighted Sum AoI in Two-Source Status Update
Systems: OMA or NOMA? [12.041266020039822]
2つの独立したソースは、最大再送信ラウンドの制限の下で、タイムスロットされた方法で、アップデートパケットを共通の宛先ノードに送信する。
ここではブロックフェーディング多重アクセスチャネル(MAC)上で異なる多重アクセススキームが利用される。
オンライン強化学習手法は, ほぼ最適年齢性能を実現するために提案されている。
論文 参考訳(メタデータ) (2022-05-06T11:18:43Z) - Fidelity-Guarantee Entanglement Routing in Quantum Networks [64.49733801962198]
絡み合いルーティングは、2つの任意のノード間のリモート絡み合い接続を確立する。
量子ネットワークにおける複数のソース・デスティネーション(SD)ペアの忠実性を保証するために、精製可能な絡み合わせルーティング設計を提案する。
論文 参考訳(メタデータ) (2021-11-15T14:07:22Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - RIS Enhanced Massive Non-orthogonal Multiple Access Networks: Deployment
and Passive Beamforming Design [116.88396201197533]
再構成可能なインテリジェントサーフェス(RIS)の配置と受動ビームフォーミング設計のための新しいフレームワークを提案する。
エネルギー効率を最大化するために、共同配置、位相シフト設計、および電力配分の問題を定式化する。
リアルタイムデータセットを活用することで,ユーザの遠隔交通需要を予測するために,LSTM(Long Short-term memory)ベースのエコー状態ネットワーク(ESN)アルゴリズムを提案する。
RISの展開と設計の連立問題を解くために,D3QNに基づく位置取得と位相制御アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-28T14:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。