論文の概要: Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network
- arxiv url: http://arxiv.org/abs/2011.04891v2
- Date: Thu, 28 Jan 2021 13:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 08:42:07.603843
- Title: Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network
- Title(参考訳): 2ホップ協調中継網におけるリレー選択と電力最適化のための階層的強化学習
- Authors: Yuanzhe Geng, Erwu Liu, Rui Wang, and Yiming Liu
- Abstract要約: 本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.5377621697101205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative communication is an effective approach to improve spectrum
utilization. In order to reduce outage probability of communication system,
most studies propose various schemes for relay selection and power allocation,
which are based on the assumption of channel state information (CSI). However,
it is difficult to get an accurate CSI in practice. In this paper, we study the
outage probability minimizing problem subjected to a total transmission power
constraint in a two-hop cooperative relay network. We use reinforcement
learning (RL) methods to learn strategies for relay selection and power
allocation, which do not need any prior knowledge of CSI but simply rely on the
interaction with communication environment. It is noted that conventional RL
methods, including most deep reinforcement learning (DRL) methods, cannot
perform well when the search space is too large. Therefore, we first propose a
DRL framework with an outage-based reward function, which is then used as a
baseline. Then, we further propose a hierarchical reinforcement learning (HRL)
framework and training algorithm. A key difference from other RL-based methods
in existing literatures is that, our proposed HRL approach decomposes relay
selection and power allocation into two hierarchical optimization objectives,
which are trained in different levels. With the simplification of search space,
the HRL approach can solve the problem of sparse reward, while the conventional
RL method fails. Simulation results reveal that compared with traditional DRL
method, the HRL training algorithm can reach convergence 30 training iterations
earlier and reduce the outage probability by 5% in two-hop relay network with
the same outage threshold.
- Abstract(参考訳): 協調通信はスペクトル利用を改善する効果的なアプローチである。
通信システムの停止確率を低減するために、多くの研究はチャネル状態情報(csi)の仮定に基づく中継選択と電力割当に関する様々なスキームを提案する。
しかし、実際には正確なcsiを得ることは困難である。
本稿では,2ホップ協調型リレーネットワークにおける全伝送電力制約による停止確率最小化問題について検討する。
我々は,CSIの事前知識を必要とせず,通信環境とのインタラクションにのみ依存するリレー選択と電力配分の戦略を学ぶために,強化学習法(RL)を用いる。
多くの深層強化学習(drl)法を含む従来のrl法では,検索空間が大きすぎるとうまく動作しない点が注目される。
そこで我々はまず,障害に基づく報酬関数をベースラインとして使用するDRLフレームワークを提案する。
さらに,階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
既存の文献における他のRL法との大きな違いは、提案手法がリレー選択と電力配分を2つの階層的最適化目標に分解し、異なるレベルで訓練することである。
探索空間の単純化により、従来のRL法は失敗するが、HRL法はスパース報酬の問題を解くことができる。
シミュレーションの結果,従来のdrl法と比較して,hrl訓練アルゴリズムはより早く収束30回に到達でき,同じ停止閾値の2ホップリレーネットワークにおいて停止確率を5%低減できることがわかった。
関連論文リスト
- Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A
Hybrid Transfer Learning Approach [20.344810727033327]
我々は,DRLをベースとしたO-RANスライシングにおいて,安全かつ迅速な収束を実現するためのハイブリッドTL支援手法を提案し,設計する。
提案されたハイブリッドアプローチは、少なくとも7.7%と20.7%は、平均的な初期報酬値と収束シナリオの割合を改善している。
論文 参考訳(メタデータ) (2023-09-13T18:58:34Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。