論文の概要: Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part I: Communication-Aware Vehicle Control
- arxiv url: http://arxiv.org/abs/2311.11281v1
- Date: Sun, 19 Nov 2023 09:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:07:49.551467
- Title: Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part I: Communication-Aware Vehicle Control
- Title(参考訳): 深層強化学習によるマルチタイム制御とコミュニケーション -その1:通信対応車両制御-
- Authors: Tong Liu, Lei Lei, Kan Zheng, Xuemin (Sherman) Shen
- Abstract要約: 深層強化学習(DRL)に基づく多段階制御と通信の協調最適化フレームワークを提案する。
本稿では,まず通信対応DRLベースのPCサブプロブレムと制御対応DRLベースのRRAサブプロブレムに分解する。
ランダムな観察遅延下でのPC性能向上のため、PC状態空間を観察遅延とPC動作履歴で拡張する。
拡張状態MDPの最適ポリシは、観測遅延を伴う元のPC問題に最適であることが証明された。
- 参考スコア(独自算出の注目度): 15.390800228536536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An intelligent decision-making system enabled by Vehicle-to-Everything (V2X)
communications is essential to achieve safe and efficient autonomous driving
(AD), where two types of decisions have to be made at different timescales,
i.e., vehicle control and radio resource allocation (RRA) decisions. The
interplay between RRA and vehicle control necessitates their collaborative
design. In this two-part paper (Part I and Part II), taking platoon control
(PC) as an example use case, we propose a joint optimization framework of
multi-timescale control and communications (MTCC) based on Deep Reinforcement
Learning (DRL). In this paper (Part I), we first decompose the problem into a
communication-aware DRL-based PC sub-problem and a control-aware DRL-based RRA
sub-problem. Then, we focus on the PC sub-problem assuming an RRA policy is
given, and propose the MTCC-PC algorithm to learn an efficient PC policy. To
improve the PC performance under random observation delay, the PC state space
is augmented with the observation delay and PC action history. Moreover, the
reward function with respect to the augmented state is defined to construct an
augmented state Markov Decision Process (MDP). It is proved that the optimal
policy for the augmented state MDP is optimal for the original PC problem with
observation delay. Different from most existing works on communication-aware
control, the MTCC-PC algorithm is trained in a delayed environment generated by
the fine-grained embedded simulation of C-V2X communications rather than by a
simple stochastic delay model. Finally, experiments are performed to compare
the performance of MTCC-PC with those of the baseline DRL algorithms.
- Abstract(参考訳): V2X通信によって実現されるインテリジェントな意思決定システムは、安全で効率的な自動運転(AD)を実現するために不可欠であり、車両制御と無線リソース割り当て(RRA)という2種類の決定を異なる時間スケールで行う必要がある。
RRAと車両制御の相互作用は共同設計を必要とする。
本論文(パートI,パートII)では,多段階制御と通信(MTCC)の協調最適化フレームワークを,深層強化学習(DRL)に基づいて提案する。
本稿では,まず通信対応DRLベースのPCサブプロブレムと制御対応DRLベースのRRAサブプロブレムに分解する。
次に、RRAポリシーが与えられると仮定したPCサブプロブレムに着目し、効率的なPCポリシーを学ぶためのMTCC-PCアルゴリズムを提案する。
ランダムな観察遅延下でのPC性能向上のため、PC状態空間を観察遅延とPC動作履歴で拡張する。
さらに、拡張状態に関する報酬関数を定義して、拡張状態マルコフ決定プロセス(MDP)を構築する。
拡張状態MDPの最適ポリシは、観測遅延を伴う元のPC問題に最適であることが証明された。
MTCC-PCアルゴリズムは,従来の通信対応制御とは異なり,単純な確率遅延モデルではなく,C-V2X通信の微細な埋め込みシミュレーションによって生成された遅延環境で訓練される。
最後に,MTCC-PCの性能とベースラインDRLアルゴリズムの性能を比較する実験を行った。
関連論文リスト
- Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Deployable Reinforcement Learning with Variable Control Rate [14.838483990647697]
可変制御率を持つ強化学習(RL)の変種を提案する。
このアプローチでは、ポリシーは、エージェントが取るべきアクションと、そのアクションに関連する時間ステップの期間を決定する。
ニュートンキネマティクスを用いたエージェントを駆動する概念実証シミュレーションによりSEACの有効性を示す。
論文 参考訳(メタデータ) (2024-01-17T15:40:11Z) - Multi-Timescale Control and Communications with Deep Reinforcement
Learning -- Part II: Control-Aware Radio Resource Allocation [15.390800228536536]
我々は,C-V2Xシステムにおけるマルチタイム制御と通信の問題を分解した。
MTCC-PC アルゴリズムを用いて RRA ポリシーを考慮し, 最適 PC ポリシーを学習する。
本稿では,PC ポリシーが与えられたことを前提とした MTCC における RRA サブプロブレムに着目し,RRA ポリシーを学習するための MTCC-RRA アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-19T09:50:21Z) - Learning to Sail Dynamic Networks: The MARLIN Reinforcement Learning
Framework for Congestion Control in Tactical Environments [53.08686495706487]
本稿では, 正確な並列化可能なエミュレーション環境を利用して, 戦術ネットワークの環境を再現するRLフレームワークを提案する。
衛星通信(SATCOM)とUHFワイドバンド(UHF)の無線リンク間のボトルネックリンク遷移を再現した条件下で、MARLINエージェントを訓練することにより、我々のRL学習フレームワークを評価する。
論文 参考訳(メタデータ) (2023-06-27T16:15:15Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Fair and Efficient Distributed Edge Learning with Hybrid Multipath TCP [62.81300791178381]
無線による分散エッジ学習のボトルネックは、コンピューティングから通信へと移行した。
DEL用の既存のTCPベースのデータネットワークスキームは、アプリケーションに依存しず、アプリケーション層要求に応じて調整を施さない。
DELのためのモデルベースと深部強化学習(DRL)に基づくMP TCPを組み合わせたハイブリッドマルチパスTCP(MP TCP)を開発した。
論文 参考訳(メタデータ) (2022-11-03T09:08:30Z) - Development of a CAV-based Intersection Control System and Corridor
Level Impact Assessment [0.696125353550498]
本稿では,画素予約アルゴリズムとDeep Reinforcement Learning (DRL)決定論理を組み合わせたCAVの信号自由交叉制御システムを提案する。
提案モデルでは,他のCAV制御システムと比較して,中等度,高,極端の容積状態において50%,29%,および23%の遅延を減少させる。
論文 参考訳(メタデータ) (2022-08-21T21:56:20Z) - Deep Reinforcement Learning Aided Platoon Control Relying on V2X
Information [78.18186960475974]
車両間通信(V2X)が小隊制御性能に及ぼす影響について検討した。
我々の目的は、最も適切な状態空間を構築するために、車両間で共有されるべき特定の情報の集合を見つけることである。
状態空間に含めると、より高い状態次元を持つ負の効果を相殺する確率が高いため、より有益な情報が伝達においてより高い優先度で与えられる。
論文 参考訳(メタデータ) (2022-03-28T02:11:54Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Path Design and Resource Management for NOMA enhanced Indoor Intelligent
Robots [58.980293789967575]
通信可能な屋内知的ロボット(IR)サービスフレームワークを提案する。
室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法が提案されている。
調査対象の無線マップは、強化学習エージェントを訓練するための仮想環境として呼び出される。
論文 参考訳(メタデータ) (2020-11-23T21:45:01Z) - Combining Reinforcement Learning with Model Predictive Control for
On-Ramp Merging [10.480121529429631]
自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。
まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。
その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-17T07:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。