論文の概要: Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks
- arxiv url: http://arxiv.org/abs/2012.01279v1
- Date: Wed, 2 Dec 2020 15:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:44:51.586589
- Title: Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks
- Title(参考訳): パレート決定論的政策勾配と5G大規模MIMOネットワークへの応用
- Authors: Zhou Zhou, Yan Xin, Hao Chen, Charlie Zhang, Lingjia Liu
- Abstract要約: 我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
- 参考スコア(独自算出の注目度): 32.099949375036495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider jointly optimizing cell load balance and network
throughput via a reinforcement learning (RL) approach, where inter-cell
handover (i.e., user association assignment) and massive MIMO antenna tilting
are configured as the RL policy to learn. Our rationale behind using RL is to
circumvent the challenges of analytically modeling user mobility and network
dynamics. To accomplish this joint optimization, we integrate vector rewards
into the RL value network and conduct RL action via a separate policy network.
We name this method as Pareto deterministic policy gradients (PDPG). It is an
actor-critic, model-free and deterministic policy algorithm which can handle
the coupling objectives with the following two merits: 1) It solves the
optimization via leveraging the degree of freedom of vector reward as opposed
to choosing handcrafted scalar-reward; 2) Cross-validation over multiple
policies can be significantly reduced. Accordingly, the RL enabled network
behaves in a self-organized way: It learns out the underlying user mobility
through measurement history to proactively operate handover and antenna tilt
without environment assumptions. Our numerical evaluation demonstrates that the
introduced RL method outperforms scalar-reward based approaches. Meanwhile, to
be self-contained, an ideal static optimization based brute-force search solver
is included as a benchmark. The comparison shows that the RL approach performs
as well as this ideal strategy, though the former one is constrained with
limited environment observations and lower action frequency, whereas the latter
ones have full access to the user mobility. The convergence of our introduced
approach is also tested under different user mobility environment based on our
measurement data from a real scenario.
- Abstract(参考訳): 本稿では、セル間ハンドオーバ(ユーザアソシエイト割り当て)とMIMOアンテナの大規模な傾きを学習ポリシーとして構成する強化学習(RL)アプローチを用いて、セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
rlの背景にある根拠は、ユーザモビリティとネットワークダイナミクスの分析的モデリングの課題を回避することです。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
この手法をPareto Deterministic Policy gradients (PDPG) と呼ぶ。
1)手作りのスカラー・リワードを選択するよりもベクトル報酬の自由度を利用して最適化する; 2) 複数のポリシーに対するクロスバリデーションを大幅に削減する。
したがって、rlを有効にしたネットワークは自己組織的に動作し、測定履歴を通じて基盤となるユーザモビリティを学習し、環境の仮定なしにハンドオーバとアンテナ傾きを積極的に操作する。
本稿では,RL法がスカラー回帰法より優れていることを示す。
一方,自己完結性を得るためには,ブルートフォース探索ソルバを用いた理想的静的最適化をベンチマークとして含む。
比較の結果,RLアプローチは,環境観測の制限や行動頻度の低下に制約されているのに対して,後者はユーザモビリティにフルアクセス可能である。
提案手法の収束性は,実シナリオからの測定データに基づいて,異なるユーザ移動環境下でも検証される。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Policy Search using Dynamic Mirror Descent MPC for Model Free Off Policy
RL [0.0]
強化学習(RL)における最近の研究は、モデルフリー(Mf)-RLアルゴリズムとモデルベース(Mb)-RLアルゴリズムを組み合わせている。
本稿では,Mb軌道最適化のためのオンライン学習と,Mf-RLの外部政治手法を統合する階層的フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-23T15:16:49Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Mixed Reinforcement Learning with Additive Stochastic Uncertainty [19.229447330293546]
強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
論文 参考訳(メタデータ) (2020-02-28T08:02:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。