論文の概要: Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems
- arxiv url: http://arxiv.org/abs/2109.04986v1
- Date: Fri, 10 Sep 2021 16:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:17:44.917317
- Title: Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO
systems
- Title(参考訳): マルチエージェント深部強化学習(MADRL)とマルチユーザMIMOシステム
- Authors: Heunchul Lee, Jaeseong Jeong
- Abstract要約: そこで本稿では,MADRLをベースとした手法により,達成可能なレート領域の外部境界(パリトバウンダリ)を達成するためのプリコーダを共同で最適化する。
また、無線通信で広く使われている信号の、従来の複雑なベースバンド表現による位相曖昧性の問題にも対処する。
我々の知る限りでは、MA-DDPGフレームワークがプリコーダを協調的に最適化し、達成可能なレート領域のパリトバウンダリを達成できることを示すのはこれが初めてである。
- 参考スコア(独自算出の注目度): 0.3883460584034765
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A multi-agent deep reinforcement learning (MADRL) is a promising approach to
challenging problems in wireless environments involving multiple
decision-makers (or actors) with high-dimensional continuous action space. In
this paper, we present a MADRL-based approach that can jointly optimize
precoders to achieve the outer-boundary, called pareto-boundary, of the
achievable rate region for a multiple-input single-output (MISO) interference
channel (IFC). In order to address two main challenges, namely, multiple actors
(or agents) with partial observability and multi-dimensional continuous action
space in MISO IFC setup, we adopt a multi-agent deep deterministic policy
gradient (MA-DDPG) framework in which decentralized actors with partial
observability can learn a multi-dimensional continuous policy in a centralized
manner with the aid of shared critic with global information. Meanwhile, we
will also address a phase ambiguity issue with the conventional complex
baseband representation of signals widely used in radio communications. In
order to mitigate the impact of phase ambiguity on training performance, we
propose a training method, called phase ambiguity elimination (PAE), that leads
to faster learning and better performance of MA-DDPG in wireless communication
systems. The simulation results exhibit that MA-DDPG is capable of learning a
near-optimal precoding strategy in a MISO IFC environment. To the best of our
knowledge, this is the first work to demonstrate that the MA-DDPG framework can
jointly optimize precoders to achieve the pareto-boundary of achievable rate
region in a multi-cell multi-user multi-antenna system.
- Abstract(参考訳): マルチエージェント深部強化学習(MADRL)は、高次元連続行動空間を持つ複数の意思決定者(またはアクター)を含む無線環境における課題に対する有望なアプローチである。
本稿では,MISO(Multiple-input Single-output)干渉チャネル(IFC)に対する達成可能なレート領域の外部バウンダリ(pareto-boundary)を実現するために,MADRLベースのアプローチを提案する。
miso ifc設定における部分可観測性と多次元連続アクション空間を有する複数のアクター(またはエージェント)の2つの主な課題に対処するために、部分可観測性を持つ分散アクターがグローバル情報による共有批判の助けを借りて多次元連続ポリシーを学習できるマルチエージェントのdeep deterministic policy gradient(ma-ddpg)フレームワークを採用する。
また、無線通信で広く使われている信号の複雑なベースバンド表現による位相曖昧性にも対処する。
そこで本研究では, 位相曖昧性がトレーニング性能に与える影響を緩和するために, 相曖昧性除去 (pae) と呼ばれる訓練法を提案し, 無線通信システムにおけるma-ddpgの高速化と性能向上に繋がる。
シミュレーションの結果,MA-DDPGはMISO IFC環境下で準最適プリコーディング戦略を学習できることがわかった。
我々の知る限り、MA-DDPGフレームワークは、マルチセルマルチユーザマルチアンテナシステムにおいて、達成可能なレート領域のパリトバウンダリを実現するために、プリコーダを協調的に最適化できることを示す最初の試みである。
関連論文リスト
- MFC-EQ: Mean-Field Control with Envelope Q-Learning for Moving Decentralized Agents in Formation [1.770056709115081]
移動エージェント(英: moving Agents in Formation、MAiF)は、マルチエージェントパスファインディングの変種である。
MFC-EQは、この双方向マルチエージェント問題に対するスケーラブルで適応可能な学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-15T20:59:47Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Ensembling Prioritized Hybrid Policies for Multi-agent Pathfinding [18.06081009550052]
MARL(Multi-Agent Reinforcement Learning)をベースとしたMAPF(Multi-Agent Path Finding)が最近注目されている。
いくつかのMARL-MAPFメソッドは、あるエージェントが知覚できる情報を豊かにするためにコミュニケーションを使用する。
優先度付きハイブリッドポリシ(EPH)を組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:47:12Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。