論文の概要: Proximal Policy Optimization Learning based Control of Congested Freeway
Traffic
- arxiv url: http://arxiv.org/abs/2204.05627v1
- Date: Tue, 12 Apr 2022 08:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 21:52:13.899262
- Title: Proximal Policy Optimization Learning based Control of Congested Freeway
Traffic
- Title(参考訳): 混雑する高速道路交通の制御に基づく近位政策最適化学習
- Authors: Shurong Mo, Jie Qi, Anqi Pan
- Abstract要約: 本研究では,PPO強化学習に基づく遅延補償フィードバックコントローラを提案する。
遅延のないシステムでは、PPO制御はリアプノフ制御よりも収束速度が速く、制御労力も少ない。
- 参考スコア(独自算出の注目度): 3.816579519746557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a delay-compensated feedback controller based on proximal
policy optimization (PPO) reinforcement learning to stabilize traffic flow in
the congested regime by manipulating the time-gap of adaptive cruise
control-equipped (ACC-equipped) vehicles.The traffic dynamics on a freeway
segment are governed by an Aw-Rascle-Zhang (ARZ) model, consisting of $2\times
2$ nonlinear first-order partial differential equations (PDEs).Inspired by the
backstepping delay compensator [18] but different from whose complex segmented
control scheme, the PPO control is composed of three feedbacks, namely the
current traffic flow velocity, the current traffic flow density and previous
one step control input. The control gains for the three feedbacks are learned
from the interaction between the PPO and the numerical simulator of the traffic
system without knowing the system dynamics. Numerical simulation experiments
are designed to compare the Lyapunov control, the backstepping control and the
PPO control. The results show that for a delay-free system, the PPO control has
faster convergence rate and less control effort than the Lyapunov control. For
a traffic system with input delay, the performance of the PPO controller is
comparable to that of the Backstepping controller, even for the situation that
the delay value does not match. However, the PPO is robust to parameter
perturbations, while the Backstepping controller cannot stabilize a system
where one of the parameters is disturbed by Gaussian noise.
- Abstract(参考訳): 本研究では,Aw-Rascle-Zhang(ARZ)モデルにより高速道路セグメントの交通動態を制御し,2-times 2$の非線形1次偏微分方程式(PDEs)で制御することで,渋滞状態におけるトラフィックフローの安定化を図るためのPPO強化学習に基づく遅延補償フィードバックコントローラを提案する。
バックステッピング遅延補償器[18]に着想を得たが、複雑なセグメント制御方式とは異なるPPO制御は、現在の交通流速度、現在の交通流密度、以前の1ステップ制御入力という3つのフィードバックからなる。
3つのフィードバックの制御ゲインは、PPOと交通システムの数値シミュレータとの相互作用から、システムのダイナミクスを知らずに学習する。
数値シミュレーション実験は、リアプノフ制御、バックステッピング制御、PPO制御を比較するように設計されている。
その結果,遅延フリーシステムでは,ppo制御はリアプノフ制御よりも収束速度が速く,制御労力も少ないことがわかった。
入力遅延のある交通システムでは、遅延値が一致しない状況であっても、PPOコントローラの性能はバックステッピングコントローラの性能に匹敵する。
しかし、PPOはパラメータ摂動に対して頑健であるが、バックステッピングコントローラはガウス雑音によってパラメータの1つが乱されるシステムを安定化できない。
関連論文リスト
- Resource Optimization for Tail-Based Control in Wireless Networked Control Systems [31.144888314890597]
制御安定性の達成は、スケーラブルな無線ネットワーク制御システムにおける重要な設計課題の1つである。
本稿では,従来のLQR(Linear Quadratic Regulator)のコスト関数を拡張し,共有無線ネットワーク上で複数の動的制御システムに拡張する,テールベース制御として定義された代替制御の概念の利用について検討する。
論文 参考訳(メタデータ) (2024-06-20T13:27:44Z) - Improving a Proportional Integral Controller with Reinforcement Learning on a Throttle Valve Benchmark [2.8322124733515666]
本稿では,非対称制御器を用いた非線形スロットル弁の学習制御手法を提案する。
我々は近年の強化学習とガイドの進歩を活用し、弁との付加的な相互作用から学習することで閉ループ動作を改善する。
すべての試験ケースにおいて、結果のエージェントは従来のRLエージェントよりもサンプリング効率が良く、PIコントローラよりも優れています。
論文 参考訳(メタデータ) (2024-02-21T09:40:26Z) - Neural Operators for Boundary Stabilization of Stop-and-go Traffic [1.90298817989995]
本稿では,ニューラル演算子を用いたPDE境界制御設計への新しいアプローチを提案する。
本稿では,トラフィックPDEシステムの安定化を目的とした2種類のニューラル演算子学習手法を提案する。
特定の近似精度条件下では,NOをベースとした閉ループシステムは実用的に安定であることが証明された。
論文 参考訳(メタデータ) (2023-12-16T08:18:39Z) - DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control [62.24301794794304]
Deep Adaptive Trajectory Tracking (DATT)は、学習に基づくアプローチであり、現実世界の大きな乱れの存在下で、任意の、潜在的に実現不可能な軌跡を正確に追跡することができる。
DATTは、非定常風場における可溶性および非実用性の両方の軌道に対して、競争適応性非線形およびモデル予測コントローラを著しく上回っている。
適応非線形モデル予測制御ベースラインの1/4未満である3.2ms未満の推論時間で、効率的にオンラインで実行することができる。
論文 参考訳(メタデータ) (2023-10-13T12:22:31Z) - A GOA-Based Fault-Tolerant Trajectory Tracking Control for an Underwater
Vehicle of Multi-Thruster System without Actuator Saturation [9.371458775465825]
本稿では,スラスタ損傷(パワーロス)を受けた水中車両(UV)の軌道追尾問題に対処するために,インテリジェントな耐故障制御(FTC)戦略を提案する。
提案した制御戦略では、速度変化を制御する改良されたバックステッピングアルゴリズムにより軌道追跡成分を形成し、スライディングモード制御によりトルク/フォース出力を減算する。
論文 参考訳(メタデータ) (2023-01-04T21:30:16Z) - Development of a CAV-based Intersection Control System and Corridor
Level Impact Assessment [0.696125353550498]
本稿では,画素予約アルゴリズムとDeep Reinforcement Learning (DRL)決定論理を組み合わせたCAVの信号自由交叉制御システムを提案する。
提案モデルでは,他のCAV制御システムと比較して,中等度,高,極端の容積状態において50%,29%,および23%の遅延を減少させる。
論文 参考訳(メタデータ) (2022-08-21T21:56:20Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Regret-optimal Estimation and Control [52.28457815067461]
後悔最適推定器と後悔最適制御器は状態空間形式で導出可能であることを示す。
非線形力学系に対するモデル予測制御(MPC)と拡張KalmanFilter(EKF)の残差最適類似性を提案する。
論文 参考訳(メタデータ) (2021-06-22T23:14:21Z) - Federated Learning on the Road: Autonomous Controller Design for
Connected and Autonomous Vehicles [109.71532364079711]
CAV(コネクテッド・アンド・自律車両)の自律制御設計のための新しい統合学習(FL)フレームワークの提案
CAVの移動性、無線フェーディングチャネル、および不均衡で非独立で同一に分散されたデータを考慮に入れた新しい動的フェデレーション・プロキシ(DFP)アルゴリズムが提案されている。
最適制御器を用いてCAVがどの程度の速度で収束するかを同定するために,提案アルゴリズムに対して厳密な収束解析を行う。
論文 参考訳(メタデータ) (2021-02-05T19:57:47Z) - Optimizing Mixed Autonomy Traffic Flow With Decentralized Autonomous
Vehicles and Multi-Agent RL [63.52264764099532]
本研究では、完全分散制御方式を用いて、混合自律環境でのボトルネックのスループットを向上させる自動運転車の能力について検討する。
この問題にマルチエージェント強化アルゴリズムを適用し、5%の浸透速度で20%から40%の浸透速度で33%までのボトルネックスループットの大幅な改善が達成できることを実証した。
論文 参考訳(メタデータ) (2020-10-30T22:06:05Z) - Improper Learning for Non-Stochastic Control [78.65807250350755]
逆方向の摂動, 逆方向に選択された凸損失関数, 部分的に観察された状態を含む, 未知の線形力学系を制御することの問題点を考察する。
このパラメトリゼーションにオンライン降下を適用することで、大規模なクローズドループポリシーに対してサブリニア後悔を実現する新しいコントローラが得られる。
我々の境界は、線形力学コントローラの安定化と競合する非確率的制御設定における最初のものである。
論文 参考訳(メタデータ) (2020-01-25T02:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。