論文の概要: Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control
- arxiv url: http://arxiv.org/abs/2211.02296v1
- Date: Fri, 4 Nov 2022 07:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:38:44.614224
- Title: Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control
- Title(参考訳): ユーザ中心動的tfdd制御のための分散連帯強化学習
- Authors: Ziyan Yin, Zhe Wang, Jun Li, Ming Ding, Wen Chen, Shi Jin
- Abstract要約: 非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 37.54493447920386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of dynamic and heterogeneous data traffic brings great
challenges for 5G and beyond mobile networks. To enhance the network capacity
and reliability, we propose a learning-based dynamic time-frequency division
duplexing (D-TFDD) scheme that adaptively allocates the uplink and downlink
time-frequency resources of base stations (BSs) to meet the asymmetric and
heterogeneous traffic demands while alleviating the inter-cell interference. We
formulate the problem as a decentralized partially observable Markov decision
process (Dec-POMDP) that maximizes the long-term expected sum rate under the
users' packet dropping ratio constraints. In order to jointly optimize the
global resources in a decentralized manner, we propose a federated
reinforcement learning (RL) algorithm named federated Wolpertinger deep
deterministic policy gradient (FWDDPG) algorithm. The BSs decide their local
time-frequency configurations through RL algorithms and achieve global training
via exchanging local RL models with their neighbors under a decentralized
federated learning framework. Specifically, to deal with the large-scale
discrete action space of each BS, we adopt a DDPG-based algorithm to generate
actions in a continuous space, and then utilize Wolpertinger policy to reduce
the mapping errors from continuous action space back to discrete action space.
Simulation results demonstrate the superiority of our proposed algorithm to
benchmark algorithms with respect to system sum rate.
- Abstract(参考訳): 動的および異種データトラフィックの爆発的な増加は、5gおよびモバイルネットワークを超えて大きな課題をもたらす。
ネットワーク容量と信頼性を向上させるため,基地局(BS)のアップリンクとダウンリンクの時間周波数リソースを適応的に割り当て,セル間干渉を緩和しながら非対称かつ不均一なトラフィック要求を満たす学習ベースの動的時間周波数分割二重化(D-TFDD)方式を提案する。
我々は,ユーザのパケット降下率制約下での長期予測総和率を最大化する分散部分可観測マルコフ決定プロセス (dec-pomdp) として問題を定式化する。
分散的な方法でグローバルリソースを協調的に最適化するために,フェデレートされたWolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
BSは、RLアルゴリズムを通じてローカルな時間周波数構成を決定し、分散化されたフェデレート学習フレームワークの下で、ローカルなRLモデルを隣人と交換することでグローバルなトレーニングを達成する。
具体的には、各BSの大規模離散的行動空間に対処するため、DDPGベースのアルゴリズムを用いて連続的な空間内での動作を生成し、Wolpertingerポリシーを用いて連続的な行動空間から離散的な行動空間への写像誤差を低減する。
シミュレーションの結果,提案アルゴリズムのシステム総和率に対するベンチマークアルゴリズムの優位性が示された。
関連論文リスト
- Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - SINR-Aware Deep Reinforcement Learning for Distributed Dynamic Channel
Allocation in Cognitive Interference Networks [10.514231683620517]
本稿では,複数の大規模ネットワークによるキャリヤ間干渉(ICI)とチャネル再利用を経験する実世界のシステムに焦点を当てる。
CARLTON(Channel Allocation RL To Overlapped Networks)と呼ばれる分散DCAのための新しいマルチエージェント強化学習フレームワークを提案する。
本結果は,従来の最先端手法に比べて優れた効率性を示し,優れた性能とロバストな一般化を示した。
論文 参考訳(メタデータ) (2024-02-17T20:03:02Z) - Differentiated Federated Reinforcement Learning Based Traffic Offloading on Space-Air-Ground Integrated Networks [12.080548048901374]
本稿では,SAGINにおけるトラヒックオフロード問題を解決するために,DFRL(differated federated reinforcement learning)を用いることを提案する。
SAGINの各領域の異なる特性を考慮すると、DFRLはトラフィックオフロードポリシー最適化プロセスをモデル化する。
本稿では,この問題を解決するために,新たな微分型フェデレート・ソフト・アクター・クリティカル (DFSAC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-05T07:40:29Z) - Computation Offloading and Resource Allocation in F-RANs: A Federated
Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文 参考訳(メタデータ) (2022-06-13T02:19:20Z) - Deep Reinforcement Learning for Wireless Scheduling in Distributed Networked Control [37.10638636086814]
完全分散無線制御システム(WNCS)の周波数チャネル数に制限のある結合アップリンクとダウンリンクのスケジューリング問題を考える。
深層強化学習(DRL)に基づくフレームワークを開発した。
DRLにおける大きなアクション空間の課題に対処するために,新しいアクション空間削減法とアクション埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-26T11:27:12Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource
Allocation for Next-Generation Cellular Systems [4.227387975627387]
深部強化学習(DRL)に基づく連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。
DRLに基づくスケジューリングアルゴリズムは、オンライン計算の複雑さを低くしながら、他の代表的ベースライン方式よりも優れている。
論文 参考訳(メタデータ) (2020-10-11T05:41:40Z) - Distributed Uplink Beamforming in Cell-Free Networks Using Deep
Reinforcement Learning [25.579612460904873]
本稿では,集中処理,半分散処理,完全分散処理を備えたアップリンクセルフリーネットワークのためのビームフォーミング手法を提案する。
分散ビームフォーミング手法は,小規模ネットワークのみを対象とした集中学習によるDDPGアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T17:54:34Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。