論文の概要: Deep reinforcement learning approach to MIMO precoding problem:
Optimality and Robustness
- arxiv url: http://arxiv.org/abs/2006.16646v1
- Date: Tue, 30 Jun 2020 10:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 06:33:12.200024
- Title: Deep reinforcement learning approach to MIMO precoding problem:
Optimality and Robustness
- Title(参考訳): MIMOプリコーディング問題に対する深層強化学習アプローチ:最適性とロバスト性
- Authors: Heunchul Lee, Maksym Girnyk and Jaeseong Jeong
- Abstract要約: 本稿では,複雑なマルチインプット多重出力(MIMO)プリコーディング問題に対する最適プリコーディングポリシの学習に使用できる,深層強化学習(RL)ベースのプリコーディングフレームワークを提案する。
我々は、DQN(Deep Q-network)とDDPG(Deep Deterministic Policy gradient)という2つの標準深度RL(DRL)アルゴリズムを用いて、フレームワークを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a deep reinforcement learning (RL)-based precoding
framework that can be used to learn an optimal precoding policy for complex
multiple-input multiple-output (MIMO) precoding problems. We model the
precoding problem for a single-user MIMO system as an RL problem in which a
learning agent sequentially selects the precoders to serve the environment of
MIMO system based on contextual information about the environmental conditions,
while simultaneously adapting the precoder selection policy based on the reward
feedback from the environment to maximize a numerical reward signal. We develop
the RL agent with two canonical deep RL (DRL) algorithms, namely deep Q-network
(DQN) and deep deterministic policy gradient (DDPG). To demonstrate the
optimality of the proposed DRL-based precoding framework, we explicitly
consider a simple MIMO environment for which the optimal solution can be
obtained analytically and show that DQN- and DDPG-based agents can learn the
near-optimal policy to map the environment state of MIMO system to a precoder
that maximizes the reward function, respectively, in the codebook-based and
non-codebook based MIMO precoding systems. Furthermore, to investigate the
robustness of DRL-based precoding framework, we examine the performance of the
two DRL algorithms in a complex MIMO environment, for which the optimal
solution is not known. The numerical results confirm the effectiveness of the
DRL-based precoding framework and show that the proposed DRL-based framework
can outperform the conventional approximation algorithm in the complex MIMO
environment.
- Abstract(参考訳): 本稿では、複雑な多重出力多重出力(MIMO)プリコーディング問題に対する最適プリコーディングポリシーの学習に使用できる、深層強化学習(RL)ベースのプリコーディングフレームワークを提案する。
学習エージェントが環境条件の文脈情報に基づいてMIMOシステムの環境を提供するためのプリコーダを逐次選択するRL問題として,環境からの報酬フィードバックに基づいてプリコーダ選択ポリシーを同時に適用し,数値報酬信号の最大化を行う。
本稿では,DQN(Deep Q-network)とDDPG(Deep Deterministic Policy gradient)という2つの標準深度RLアルゴリズムを用いたRLエージェントを開発した。
提案するdrl型プリコーディングフレームワークの最適性を示すために,dqn型およびddpg系エージェントが,コードブックベースおよび非コードブック型mimoプリコーディングシステムにおいて,最適解を解析的に得ることのできる単純なmimo環境を明示的に検討し,mimoシステムの環境状態をそれぞれ報奨関数を最大化するプリコーダにマップする至近の最適化ポリシーをdqn型およびddpg型エージェントが学習可能であることを示す。
さらに,DRLをベースとしたプリコーディングフレームワークのロバスト性を検討するため,複雑なMIMO環境下での2つのDRLアルゴリズムの性能について検討した。
その結果,DRLをベースとしたプレコーディングフレームワークの有効性を確認し,複雑なMIMO環境下での従来の近似アルゴリズムより優れていることを示す。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - Provably Efficient Information-Directed Sampling Algorithms for Multi-Agent Reinforcement Learning [50.92957910121088]
本研究は,情報指向サンプリング(IDS)の原理に基づくマルチエージェント強化学習(MARL)のための新しいアルゴリズムの設計と解析を行う。
エピソディックな2プレーヤゼロサムMGに対して、ナッシュ平衡を学習するための3つのサンプル効率アルゴリズムを提案する。
我々は、Reg-MAIDSをマルチプレイヤー汎用MGに拡張し、ナッシュ平衡または粗相関平衡をサンプル効率良く学習できることを証明する。
論文 参考訳(メタデータ) (2024-04-30T06:48:56Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Iterative Algorithm Induced Deep-Unfolding Neural Networks: Precoding
Design for Multiuser MIMO Systems [59.804810122136345]
本稿では,AIIDNN(ディープ・アンフォールディング・ニューラルネット)を一般化した,ディープ・アンフォールディングのためのフレームワークを提案する。
古典的重み付き最小二乗誤差(WMMSE)反復アルゴリズムの構造に基づく効率的なIAIDNNを提案する。
提案したIAIDNNは,計算複雑性を低減した反復WMMSEアルゴリズムの性能を効率よく向上することを示す。
論文 参考訳(メタデータ) (2020-06-15T02:57:57Z) - A Reinforcement Learning based approach for Multi-target Detection in
Massive MIMO radar [12.982044791524494]
本稿では,MMIMO(Multiple input Multiple output)認知レーダ(CR)におけるマルチターゲット検出の問題点について考察する。
本稿では,未知の外乱統計の存在下での認知的マルチターゲット検出のための強化学習(RL)に基づくアルゴリズムを提案する。
定常環境と動的環境の両方において提案したRLアルゴリズムの性能を評価するため, 数値シミュレーションを行った。
論文 参考訳(メタデータ) (2020-05-10T16:29:06Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。