論文の概要: Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled
Mobile Communications
- arxiv url: http://arxiv.org/abs/2303.16737v1
- Date: Wed, 29 Mar 2023 14:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 14:33:06.957727
- Title: Multi-Agent Reinforcement Learning with Action Masking for UAV-enabled
Mobile Communications
- Title(参考訳): UAV対応モバイル通信のためのアクションマスキングを用いたマルチエージェント強化学習
- Authors: Danish Rizvi, David Boyle
- Abstract要約: 無人航空機(UAV)は、アドホックな通信インフラを提供するために、航空基地局としてますます使われている。
本稿では,地上通信インフラのないモバイルユーザに対して,複数のUAVを無線通信に利用することに焦点を当てる。
システムスループットを最大化するために,UAV 3DトラジェクトリとNOMAパワーアロケーションを共同で最適化する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicles (UAVs) are increasingly used as aerial base stations
to provide ad hoc communications infrastructure. Building upon prior research
efforts which consider either static nodes, 2D trajectories or single UAV
systems, this paper focuses on the use of multiple UAVs for providing wireless
communication to mobile users in the absence of terrestrial communications
infrastructure. In particular, we jointly optimize UAV 3D trajectory and NOMA
power allocation to maximize system throughput. Firstly, a weighted
K-means-based clustering algorithm establishes UAV-user associations at regular
intervals. The efficacy of training a novel Shared Deep Q-Network (SDQN) with
action masking is then explored. Unlike training each UAV separately using DQN,
the SDQN reduces training time by using the experiences of multiple UAVs
instead of a single agent. We also show that SDQN can be used to train a
multi-agent system with differing action spaces. Simulation results confirm
that: 1) training a shared DQN outperforms a conventional DQN in terms of
maximum system throughput (+20%) and training time (-10%); 2) it can converge
for agents with different action spaces, yielding a 9% increase in throughput
compared to mutual learning algorithms; and 3) combining NOMA with an SDQN
architecture enables the network to achieve a better sum rate compared with
existing baseline schemes.
- Abstract(参考訳): 無人航空機(UAV)は、アドホックな通信インフラを提供するために、航空基地局としてますます使われている。
本稿では, 静的ノード, 2次元軌道, 単一UAVシステムのいずれかを検討する先行研究に基づいて, 地上通信インフラのないモバイルユーザへの無線通信に複数のUAVを使用することに焦点を当てる。
特に,UAV3DトラジェクトリとNOMAパワーアロケーションを共同で最適化し,システムスループットを最大化する。
まず,重み付きk平均に基づくクラスタリングアルゴリズムにより,uavユーザアソシエーションを一定間隔で確立する。
次に、アクションマスキングによる新しい共有深度ネットワーク(SDQN)のトレーニングの有効性について検討する。
DQNを使用して個別にUAVを訓練するのとは異なり、SDQNは単一のエージェントではなく複数のUAVの経験を利用することでトレーニング時間を短縮する。
また,sdqnは異なる動作空間を持つマルチエージェントシステムのトレーニングに使用できることを示した。
シミュレーションの結果は以下のとおりである。
1)共有DQNのトレーニングは、最大システムスループット(20%)とトレーニング時間(-10%)で従来のDQNよりも優れている。
2)異なる動作空間を持つエージェントに対して収束し,相互学習アルゴリズムと比較してスループットが9%向上する。
3) NOMA と SDQN アーキテクチャを組み合わせることで,既存のベースライン方式と比較して,ネットワークの総和率が向上する。
関連論文リスト
- UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Multi-Agent Reinforcement Learning for Offloading Cellular Communications with Cooperating UAVs [21.195346908715972]
無人航空機は、地上のBSからデータトラフィックをオフロードする代替手段を提供する。
本稿では,地上BSからデータオフロードを行うために,複数のUAVを効率的に利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T12:36:08Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - 3D UAV Trajectory and Data Collection Optimisation via Deep
Reinforcement Learning [75.78929539923749]
無人航空機(UAV)は現在、無線通信におけるネットワーク性能とカバレッジを高めるために配備され始めている。
UAV支援モノのインターネット(IoT)のための最適な資源配分方式を得ることは困難である
本稿では,UAVの最も短い飛行経路に依存しつつ,IoTデバイスから収集したデータ量を最大化しながら,新しいUAV支援IoTシステムを設計する。
論文 参考訳(メタデータ) (2021-06-06T14:08:41Z) - Efficient UAV Trajectory-Planning using Economic Reinforcement Learning [65.91405908268662]
UAV間でタスクを分散するための経済取引に触発された新しい強化学習アルゴリズムであるREPlannerを紹介します。
エージェントが協力し、リソースを競うことができるマルチエージェント経済ゲームとして、パス計画問題を策定します。
UAV協力によるタスク分布の計算を行うため、Swarmサイズの変化に対して非常に耐性が高い。
論文 参考訳(メタデータ) (2021-03-03T20:54:19Z) - Privacy-Preserving Federated Learning for UAV-Enabled Networks:
Learning-Based Joint Scheduling and Resource Management [45.15174235000158]
無人航空機(UAV)は、データ収集、人工知能(AI)モデルトレーニング、無線通信をサポートする飛行基地局(BS)として機能する。
モデルトレーニングのためにUAVサーバにデバイスの生データを送信するのは現実的ではない。
本稿では,マルチUAV対応ネットワークのための非同期フェデレーション学習フレームワークを開発する。
論文 参考訳(メタデータ) (2020-11-28T18:58:34Z) - Multi-Agent Reinforcement Learning in NOMA-aided UAV Networks for
Cellular Offloading [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T20:22:05Z) - NOMA in UAV-aided cellular offloading: A machine learning approach [59.32570888309133]
複数の無人航空機(UAV)によるセルローディングのための新しい枠組みの提案
非直交多重アクセス(NOMA)技術は、無線ネットワークのスペクトル効率をさらに向上するために、各UAVに採用されている。
相互深いQ-network (MDQN) アルゴリズムは,UAVの最適3次元軌道と電力配分を共同で決定するために提案される。
論文 参考訳(メタデータ) (2020-10-18T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。