論文の概要: Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part II: Control-Aware Radio Resource Allocation
- arxiv url: http://arxiv.org/abs/2311.11280v1
- Date: Sun, 19 Nov 2023 09:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:07:20.812941
- Title: Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part II: Control-Aware Radio Resource Allocation
- Title(参考訳): 深層強化学習によるマルチタイム制御とコミュニケーション -その2: 無線リソース配置の制御-
- Authors: Lei Lei, Tong Liu, Kan Zheng, Xuemin (Sherman) Shen
- Abstract要約: 我々は,C-V2Xシステムにおけるマルチタイム制御と通信の問題を分解した。
MTCC-PC アルゴリズムを用いて RRA ポリシーを考慮し, 最適 PC ポリシーを学習する。
本稿では,PC ポリシーが与えられたことを前提とした MTCC における RRA サブプロブレムに着目し,RRA ポリシーを学習するための MTCC-RRA アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 15.390800228536536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Part I of this two-part paper (Multi-Timescale Control and Communications
with Deep Reinforcement Learning -- Part I: Communication-Aware Vehicle
Control), we decomposed the multi-timescale control and communications (MTCC)
problem in Cellular Vehicle-to-Everything (C-V2X) system into a
communication-aware Deep Reinforcement Learning (DRL)-based platoon control
(PC) sub-problem and a control-aware DRL-based radio resource allocation (RRA)
sub-problem. We focused on the PC sub-problem and proposed the MTCC-PC
algorithm to learn an optimal PC policy given an RRA policy. In this paper
(Part II), we first focus on the RRA sub-problem in MTCC assuming a PC policy
is given, and propose the MTCC-RRA algorithm to learn the RRA policy.
Specifically, we incorporate the PC advantage function in the RRA reward
function, which quantifies the amount of PC performance degradation caused by
observation delay. Moreover, we augment the state space of RRA with PC action
history for a more well-informed RRA policy. In addition, we utilize reward
shaping and reward backpropagation prioritized experience replay (RBPER)
techniques to efficiently tackle the multi-agent and sparse reward problems,
respectively. Finally, a sample- and computational-efficient training approach
is proposed to jointly learn the PC and RRA policies in an iterative process.
In order to verify the effectiveness of the proposed MTCC algorithm, we
performed experiments using real driving data for the leading vehicle, where
the performance of MTCC is compared with those of the baseline DRL algorithms.
- Abstract(参考訳): 本論文のパートI(Multi-Timescale Control and Communications with Deep Reinforcement Learning -- Part I: Communication-Aware Vehicle Control)では,C-V2X(Cellular Vehicle-to-Everything)システムにおけるマルチスケール制御と通信(MTCC)の問題を,DRL(Deep Reinforcement Learning)に基づく小隊制御(PC)サブプロブレムとDRL(RRA)サブプロブレムに分解した。
我々は,PCサブプロブレムに着目し,RRAポリシーを考慮し,最適PCポリシーを学習するためのMTCC-PCアルゴリズムを提案した。
本稿では,PC ポリシーが与えられたことを前提とした MTCC における RRA サブプロブレムに着目し,RRA ポリシーを学習するための MTCC-RRA アルゴリズムを提案する。
具体的には、観察遅延に起因するPC性能劣化量を定量化するRRA報酬関数にPCアドバンテージ関数を組み込む。
さらに,PC アクション履歴を用いて RRA の状態空間を拡張し,より優れた RRA ポリシーを提案する。
さらに,報奨シェーピングと報奨バックプロパゲーションを優先した経験リプレイ (rbper) 技術を用いて,マルチエージェント問題とスパース報酬問題を効率的に解決する。
最後に,pcとrraのポリシを反復的に学習するために,サンプルと計算効率のよいトレーニング手法を提案する。
MTCCアルゴリズムの有効性を検証するために, MTCCの性能をベースラインDRLアルゴリズムと比較した, 先行車両の実走行データを用いた実験を行った。
関連論文リスト
- Wireless Resource Allocation with Collaborative Distributed and Centralized DRL under Control Channel Attacks [9.981962772130025]
制御チャネルがDoS攻撃を受けるサイバー物理システム(CPS)における無線リソース割り当て問題について考察する。
本稿では,これらの攻撃の影響を効果的に軽減するために,CDCの資源配分を協調的に行うという新しい概念を提案する。
既存の DRL フレームワークは集中的あるいは分散的な意思決定問題のみを定式化するのに対して,我々は CDC-deep reinforcement learning (DRL) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-16T04:56:23Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part I: Communication-Aware Vehicle Control [15.390800228536536]
深層強化学習(DRL)に基づく多段階制御と通信の協調最適化フレームワークを提案する。
本稿では,まず通信対応DRLベースのPCサブプロブレムと制御対応DRLベースのRRAサブプロブレムに分解する。
ランダムな観察遅延下でのPC性能向上のため、PC状態空間を観察遅延とPC動作履歴で拡張する。
拡張状態MDPの最適ポリシは、観測遅延を伴う元のPC問題に最適であることが証明された。
論文 参考訳(メタデータ) (2023-11-19T09:51:58Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle
Routing Problem with Time Windows [58.891409372784516]
本稿では,Roulette Wheel Method (RWPSO) を用いた新しいPSO手法を提案する。
RWPSOのSolomon VRPTWベンチマークデータセットを用いた実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2023-06-04T09:18:02Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。
DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。
DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文 参考訳(メタデータ) (2022-11-03T09:08:30Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Combining Reinforcement Learning with Model Predictive Control for
On-Ramp Merging [10.480121529429631]
自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。
まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。
その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-17T07:42:11Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks [44.40722828581203]
オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
論文 参考訳(メタデータ) (2020-01-24T23:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。