論文の概要: Autonomous Platoon Control with Integrated Deep Reinforcement Learning
and Dynamic Programming
- arxiv url: http://arxiv.org/abs/2206.07536v1
- Date: Wed, 15 Jun 2022 13:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 13:22:00.962365
- Title: Autonomous Platoon Control with Integrated Deep Reinforcement Learning
and Dynamic Programming
- Title(参考訳): 深層強化学習と動的プログラミングを統合した自律小隊制御
- Authors: Tong Liu, Lei Lei, Kan Zheng, Kuan Zhang
- Abstract要約: 小隊に複数の追従車両がある場合、安定的で効率的な車両追従ポリシーを学ぶことはより困難である。
我々は、自律型小隊制御ポリシーを学ぶために統合DRLと動的プログラミングアプローチを採用する。
本研究では,Sweepingを用いたFinite-Horizon-DDPGというアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 12.661547303266252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) is regarded as a potential method for
car-following control and has been mostly studied to support a single following
vehicle. However, it is more challenging to learn a stable and efficient
car-following policy when there are multiple following vehicles in a platoon,
especially with unpredictable leading vehicle behavior. In this context, we
adopt an integrated DRL and Dynamic Programming (DP) approach to learn
autonomous platoon control policies, which embeds the Deep Deterministic Policy
Gradient (DDPG) algorithm into a finite-horizon value iteration framework.
Although the DP framework can improve the stability and performance of DDPG, it
has the limitations of lower sampling and training efficiency. In this paper,
we propose an algorithm, namely Finite-Horizon-DDPG with Sweeping through
reduced state space using Stationary approximation (FH-DDPG-SS), which uses
three key ideas to overcome the above limitations, i.e., transferring network
weights backward in time, stationary policy approximation for earlier time
steps, and sweeping through reduced state space. In order to verify the
effectiveness of FH-DDPG-SS, simulation using real driving data is performed,
where the performance of FH-DDPG-SS is compared with those of the benchmark
algorithms. Finally, platoon safety and string stability for FH-DDPG-SS are
demonstrated.
- Abstract(参考訳): 深層強化学習(drl)は自動車追従制御の潜在的な方法と見なされ、主に1台の追従車両をサポートするために研究されている。
しかし、小隊に複数の追従車両が存在する場合、特に予測不可能な先行車両行動で、安定的で効率的な車両追従ポリシーを学ぶことはより困難である。
この文脈では、DRLと動的プログラミング(DP)を統合して自律型小隊制御ポリシーを学習し、Deep Deterministic Policy Gradient(DDPG)アルゴリズムを有限水平値反復フレームワークに組み込む。
DPフレームワークはDDPGの安定性と性能を向上させることができるが,サンプリングおよびトレーニング効率の低下には限界がある。
本稿では,これらの制約を克服するための3つの重要なアイデア,すなわちネットワーク重みの後方移動,事前の時間ステップの定常政策近似,縮小状態空間のスイープを克服するために,定常近似 (fh-ddpg-ss) を用いた有限ホリゾンddpg法を提案する。
FH-DDPG-SSの有効性を検証するため、実運転データを用いたシミュレーションを行い、FH-DDPG-SSの性能をベンチマークアルゴリズムと比較した。
最後に, FH-DDPG-SSにおける小隊の安全性と弦の安定性を実証した。
関連論文リスト
- Tangled Program Graphs as an alternative to DRL-based control algorithms for UAVs [0.43695508295565777]
ディープ強化学習(Dep reinforcement Learning, DRL)は、現在、自動運転車の制御において最も一般的なAIベースのアプローチである。
このアプローチには、高い計算要求と低い説明可能性という、いくつかの大きな欠点がある。
本稿では,DRLの代替としてTangled Program Graphs (TPG) を提案する。
論文 参考訳(メタデータ) (2024-11-08T14:20:29Z) - Autonomous Navigation of Unmanned Vehicle Through Deep Reinforcement Learning [1.3725832537448668]
本稿では,アッカーマンロボットのモデルとDDPGアルゴリズムの構造と応用について詳述する。
その結果、DDPGアルゴリズムは経路計画タスクにおいて従来のディープQネットワーク(DQN)およびダブルディープQネットワーク(DDQN)アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T05:18:59Z) - Vehicles Control: Collision Avoidance using Federated Deep Reinforcement
Learning [3.8078589880662754]
本稿では,フェデレーションディープ強化学習技術を用いた衝突回避のための車両制御に関する総合的研究について述べる。
私たちの主な目標は、旅行の遅延を最小限に抑え、安全性を優先し、データのプライバシを保護しながら、車の平均速度を高めることです。
論文 参考訳(メタデータ) (2023-08-04T14:26:19Z) - Training Efficient Controllers via Analytic Policy Gradient [44.0762454494769]
ロボットシステムの制御設計は複雑であり、しばしば軌道を正確に追従するために最適化を解く必要がある。
Model Predictive Control (MPC)のようなオンライン最適化手法は、優れたトラッキング性能を実現するために示されているが、高い計算能力を必要とする。
本稿では,この問題に対処するための分析政策グラディエント(APG)手法を提案する。
論文 参考訳(メタデータ) (2022-09-26T22:04:35Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Hybrid Car-Following Strategy based on Deep Deterministic Policy
Gradient and Cooperative Adaptive Cruise Control [7.016756906859412]
深度決定論的政策勾配(DDPG)と協調適応巡航制御(CACC)に基づくハイブリッドカーフォロー戦略を提案する。
提案手法は,CACCによる車追従の基本的な性能を保証するとともに,DDPGによる複雑な環境探索の利点をフル活用する。
論文 参考訳(メタデータ) (2021-02-24T17:37:47Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Deep Policy Dynamic Programming for Vehicle Routing Problems [89.96386273895985]
本稿では,学習ニューラルの強みと動的プログラミングアルゴリズムの強みを組み合わせた深層ポリシー動的プログラミング(d pdp)を提案する。
D PDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。
本研究では,旅行セールスマン問題 (TSP) と車両ルーティング問題 (VRP) の枠組みを評価し,ニューラルネットワークが(制限された)DPアルゴリズムの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-02-23T15:33:57Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。