論文の概要: Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet
- arxiv url: http://arxiv.org/abs/2212.07967v1
- Date: Thu, 15 Dec 2022 17:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 18:17:14.927024
- Title: Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet
- Title(参考訳): hetnetにおける電力制御のための分散訓練・実行マルチエージェント強化学習
- Authors: Kaidi Xu, Nguyen Van Huynh, Geoffrey Ye Li
- Abstract要約: We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
- 参考スコア(独自算出の注目度): 48.96004919910818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In heterogeneous networks (HetNets), the overlap of small cells and the macro
cell causes severe cross-tier interference. Although there exist some
approaches to address this problem, they usually require global channel state
information, which is hard to obtain in practice, and get the sub-optimal power
allocation policy with high computational complexity. To overcome these
limitations, we propose a multi-agent deep reinforcement learning (MADRL) based
power control scheme for the HetNet, where each access point makes power
control decisions independently based on local information. To promote
cooperation among agents, we develop a penalty-based Q learning (PQL) algorithm
for MADRL systems. By introducing regularization terms in the loss function,
each agent tends to choose an experienced action with high reward when
revisiting a state, and thus the policy updating speed slows down. In this way,
an agent's policy can be learned by other agents more easily, resulting in a
more efficient collaboration process. We then implement the proposed PQL in the
considered HetNet and compare it with other distributed-training-and-execution
(DTE) algorithms. Simulation results show that our proposed PQL can learn the
desired power control policy from a dynamic environment where the locations of
users change episodically and outperform existing DTE MADRL algorithms.
- Abstract(参考訳): 不均一ネットワーク(ヘトネット)では、小細胞とマクロセルの重なりが深刻な層間干渉を引き起こす。
この問題に対処するためのアプローチはいくつか存在するが、通常はグローバルチャネル状態情報が必要であり、実際には取得が困難であり、計算の複雑さが高いサブ最適電力割当ポリシーを取得する。
これらの制約を克服するために,HetNetのマルチエージェント深部強化学習(MADRL)に基づく電力制御方式を提案し,各アクセスポイントがローカル情報に基づいて電力制御を独立に行う。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQ学習(PQL)アルゴリズムを開発した。
損失関数に正規化項を導入することにより、各エージェントは状態を再考する際に高い報酬で経験豊富なアクションを選択する傾向があるため、ポリシー更新速度は低下する。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
次に、提案したPQLを検討対象のHetNetに実装し、他の分散トレーニング・実行(DTE)アルゴリズムと比較する。
シミュレーションの結果,提案したPQLは,ユーザの位置がエピソード的に変化し,既存のDTE MADRLアルゴリズムよりも優れる動的環境から,所望の電力制御ポリシーを学習できることが示唆された。
関連論文リスト
- State and Action Factorization in Power Grids [47.65236082304256]
状態と行動成分の相関関係をデータに基づいて推定するドメインに依存しないアルゴリズムを提案する。
このアルゴリズムはGrid2Opシミュレータで得られた電力グリッドベンチマークで検証される。
論文 参考訳(メタデータ) (2024-09-03T15:00:58Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Learning RL-Policies for Joint Beamforming Without Exploration: A Batch
Constrained Off-Policy Approach [1.0080317855851213]
本稿では,ネットワークにおけるパラメータキャンセル最適化の問題点について考察する。
探索と学習のために実世界でアルゴリズムをデプロイすることは、探索せずにデータによって達成できることを示す。
論文 参考訳(メタデータ) (2023-10-12T18:36:36Z) - Scalable and Sample Efficient Distributed Policy Gradient Algorithms in
Multi-Agent Networked Systems [12.327745531583277]
Reward-Coupled Multi-Agent Reinforcement LearningからREC-MARLと命名した。
REC-MARLは、無線ネットワークにおけるリアルタイムアクセス制御や分散電力制御など、様々な重要な応用がある。
論文 参考訳(メタデータ) (2022-12-13T03:44:00Z) - Computation Offloading and Resource Allocation in F-RANs: A Federated
Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文 参考訳(メタデータ) (2022-06-13T02:19:20Z) - Hierarchical Multi-Agent DRL-Based Framework for Joint Multi-RAT
Assignment and Dynamic Resource Allocation in Next-Generation HetNets [21.637440368520487]
本稿では,次世代無線ネットワーク(HetNets)における共同最適無線アクセス技術(RATs)の割り当てと電力割り当てによるコストアウェアダウンリンク総和率の問題について考察する。
本稿では,DeepRAT(DeepRAT)と呼ばれる階層型多エージェント深層強化学習(DRL)フレームワークを提案する。
特に、DeepRATフレームワークは、問題を2つの主要なステージに分解する: 単一エージェントのDeep Q Networkアルゴリズムを実装するRATs-EDs割り当てステージと、マルチエージェントのDeep Deterministic Policy Gradientを利用するパワー割り当てステージである。
論文 参考訳(メタデータ) (2022-02-28T09:49:44Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Better than the Best: Gradient-based Improper Reinforcement Learning for
Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。
我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文 参考訳(メタデータ) (2021-05-01T10:18:34Z) - Deep Actor-Critic Learning for Distributed Power Control in Wireless
Mobile Networks [5.930707872313038]
深層強化学習は、教師付きディープラーニングと古典的な最適化に代わるモデルなしの代替手段を提供する。
本稿では,深いアクター・クリティカル・ラーニングの助けを借りて,分散的に実行された連続電力制御アルゴリズムを提案する。
提案した電力制御アルゴリズムを,携帯端末とチャネル条件が急速に変化するタイムスロットシステムに統合する。
論文 参考訳(メタデータ) (2020-09-14T18:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。