論文の概要: Distributed Proximal Policy Optimization for Contention-Based Spectrum
Access
- arxiv url: http://arxiv.org/abs/2111.09420v1
- Date: Thu, 7 Oct 2021 00:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-12 05:33:46.053182
- Title: Distributed Proximal Policy Optimization for Contention-Based Spectrum
Access
- Title(参考訳): コンテントベーススペクトルアクセスのための分散近ポリシー最適化
- Authors: Akash Doshi and Jeffrey G. Andrews
- Abstract要約: 本稿では,ポリシ最適化と呼ばれるポリシ勾配法を分散的に実装する。
各タイムスロットにおいて、基地局は、スペクトルセンシングおよび受信品質の情報を使用して、所定のリソースで送信するか否かを自律的に決定する。
政策勾配法により蓄積された正当性報酬は、ジェニーエイドによる適応エネルギー検出閾値よりも有意に高い。
- 参考スコア(独自算出の注目度): 40.99534735484468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing number of wireless devices operating in unlicensed spectrum
motivates the development of intelligent adaptive approaches to spectrum access
that go beyond traditional carrier sensing. We develop a novel distributed
implementation of a policy gradient method known as Proximal Policy
Optimization modelled on a two stage Markov decision process that enables such
an intelligent approach, and still achieves decentralized contention-based
medium access. In each time slot, a base station (BS) uses information from
spectrum sensing and reception quality to autonomously decide whether or not to
transmit on a given resource, with the goal of maximizing proportional fairness
network-wide. Empirically, we find the proportional fairness reward accumulated
by the policy gradient approach to be significantly higher than even a
genie-aided adaptive energy detection threshold. This is further validated by
the improved sum and maximum user throughputs achieved by our approach.
- Abstract(参考訳): 非ライセンススペクトルで動作する無線デバイスの増加は、従来のキャリアセンシングを超越したスペクトルアクセスに対するインテリジェントな適応アプローチの開発を動機付ける。
我々は,このようなインテリジェントなアプローチを可能にする2段階のマルコフ決定プロセスに基づく近位政策最適化手法として,分散競合ベースの媒体アクセスを実現するための新しい分散実装法を開発した。
各タイムスロットにおいて、ベースステーション(BS)は、スペクトルセンシングおよび受信品質の情報を用いて、所定のリソース上で送信するか否かを自律的に決定し、ネットワーク全体の比例公平性を最大化する。
実証的に, 政策勾配法によって蓄積された比例公平性報酬は, ジェニー支援適応エネルギー検出閾値よりも有意に高いことがわかった。
これは、我々のアプローチによって達成されたユーザースループットの改善と最大化によってさらに検証される。
関連論文リスト
- Collaborative Ground-Space Communications via Evolutionary Multi-objective Deep Reinforcement Learning [113.48727062141764]
地中直接通信を実現するために,分散コラボレーティブビームフォーミング(DCB)に基づくアップリンク通信パラダイムを提案する。
DCBは、低軌道(LEO)衛星と効率的な直接接続を確立することができない端末を分散アンテナとして扱う。
本稿では,進化的多目的深層強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:13:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Joint Power Allocation and Beamformer for mmW-NOMA Downlink Systems by
Deep Reinforcement Learning [0.0]
mmW-NOMAシステムの連系電力配分とビームフォーミングは必須である。
我々は,ユーザを最適化した要約に導くポリシー生成のために,Deep Reinforcement Learning (DRL) アプローチを利用した。
論文 参考訳(メタデータ) (2022-05-13T07:42:03Z) - Learning Resilient Radio Resource Management Policies with Graph Neural
Networks [124.89036526192268]
我々は、ユーザ当たりの最小容量制約でレジリエントな無線リソース管理問題を定式化する。
有限個のパラメータ集合を用いてユーザ選択と電力制御ポリシーをパラメータ化できることを示す。
このような適応により,提案手法は平均レートと5番目のパーセンタイルレートとの良好なトレードオフを実現する。
論文 参考訳(メタデータ) (2022-03-07T19:40:39Z) - A Q-Learning-based Approach for Distributed Beam Scheduling in mmWave
Networks [18.22250038264899]
ミリ波(mmWave)セルネットワークにおける分散ダウンリンクビームスケジューリングと電力配分の問題点を考察する。
異なるサービス事業者に属する複数の基地局は同じ無許可のスペクトルを共有しており、中心的な調整や協調は行われていない。
本稿では,各BSを独立したQ学習エージェントとしてモデル化し,分散スケジューリング手法を提案する。
論文 参考訳(メタデータ) (2021-10-17T02:58:13Z) - A Deep Reinforcement Learning Framework for Contention-Based Spectrum
Sharing [31.640828282666245]
我々は、無許可の共有スペクトルで動作する基地局の分散競合に基づく媒体アクセスについて検討する。
各タイムスロットに2段階のマルコフ決定プロセスを導入し、スペクトルセンシングと受信品質の情報を用いて媒体アクセス決定を行う。
我々の定式化は、分散推論、オンライン適応性、および環境の一部的な可観測性を提供する。
論文 参考訳(メタデータ) (2021-10-05T03:00:33Z) - Distributed Deep Reinforcement Learning for Adaptive Medium Access and
Modulation in Shared Spectrum [42.54329256803276]
本研究では,非ライセンス共有スペクトルで動作する基地局の分散競合に基づく媒体アクセスについて検討する。
我々は,ネットワーク全体のダウンリンクスループットを最大化するために,競合と適応変調の両方のための学習に基づくアルゴリズムを考案した。
実証的に、政策勾配法によって蓄積された(比例的公正性)報酬は、ジェニーエイドによる適応エネルギー検出閾値よりも著しく高い。
論文 参考訳(メタデータ) (2021-09-24T03:33:45Z) - Model-Free Learning of Optimal Deterministic Resource Allocations in
Wireless Systems via Action-Space Exploration [4.721069729610892]
本稿では,最適パラメータ化資源割り当てポリシーを効率的に学習するための,技術的基盤と拡張性のある2次元勾配法を提案する。
提案手法は, 深層ネットワークなどの一般的な普遍表現の勾配を効率よく活用するだけでなく, 低次元摂動により構築された関連するランダムネットワークサービスのゼロ階勾配近似を一貫したゼロ階勾配近似に頼っているため, 真のモデルフリーである。
論文 参考訳(メタデータ) (2021-08-23T18:26:16Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。