論文の概要: Reinforcement Learning with Model Predictive Control for Highway Ramp
Metering
- arxiv url: http://arxiv.org/abs/2311.08820v1
- Date: Wed, 15 Nov 2023 09:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 16:36:55.315827
- Title: Reinforcement Learning with Model Predictive Control for Highway Ramp
Metering
- Title(参考訳): 道路ランプ計測のためのモデル予測制御による強化学習
- Authors: Filippo Airaldi and Bart De Schutter and Azita Dabiri
- Abstract要約: この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
2つのパラダイムの利点を融合した MPC ベースの RL アプローチが提案され,オンランプを効率的に制御する方法が提案されている。
- 参考スコア(独自算出の注目度): 16.1718917168364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the backdrop of an increasingly pressing need for effective urban and
highway transportation systems, this work explores the synergy between
model-based and learning-based strategies to enhance traffic flow management by
use of an innovative approach to the problem of highway ramp metering control
that embeds Reinforcement Learning techniques within the Model Predictive
Control framework. The control problem is formulated as an RL task by crafting
a suitable stage cost function that is representative of the traffic
conditions, variability in the control action, and violations of a
safety-critical constraint on the maximum number of vehicles in queue. An
MPC-based RL approach, which merges the advantages of the two paradigms in
order to overcome the shortcomings of each framework, is proposed to learn to
efficiently control an on-ramp and to satisfy its constraints despite
uncertainties in the system model and variable demands. Finally, simulations
are performed on a benchmark from the literature consisting of a small-scale
highway network. Results show that, starting from an MPC controller that has an
imprecise model and is poorly tuned, the proposed methodology is able to
effectively learn to improve the control policy such that congestion in the
network is reduced and constraints are satisfied, yielding an improved
performance compared to the initial controller.
- Abstract(参考訳): 本研究は、効果的な都市・高速道路交通システムの必要性の高まりを背景に、モデル予測制御フレームワークに強化学習手法を組み込んだハイウェイランプ計測制御の問題に対する革新的なアプローチを用いて、モデルベースと学習ベースの交通フロー管理を強化するための戦略の相乗効果を探求する。
制御問題は、交通条件、制御動作のばらつき、および待ち行列中の車両の最大数に対する安全クリティカル制約違反を表す適切なステージコスト関数を構築することにより、RLタスクとして定式化される。
MPC ベースの RL アプローチは,各フレームワークの欠点を克服するために,両パラダイムの利点を融合して,オンランプの効率よく制御し,システムモデルや変数要求の不確実性にもかかわらず,その制約を満たすことを学ぶ。
最後に、小規模高速道路網からなる文献から得られたベンチマークでシミュレーションを行う。
提案手法は,不正確なモデルを持ち,調整が不十分なMPCコントローラから,ネットワーク内の混雑が減少し制約が満たされるような制御ポリシーを効果的に学習し,初期コントローラと比較して性能が向上したことを示す。
関連論文リスト
- Model-free Learning of Corridor Clearance: A Near-term Deployment
Perspective [5.39179984304986]
コネクテッド・アンド・オートマチック・ビークル(CAV)技術の公衆衛生応用は、交通を間接的に調整することで救急医療サービス(EMS)の応答時間を短縮することである。
このトピックに関する既存の研究は、EMS車両の故障が通常の交通に与える影響を見落とし、100%CAVの侵入を仮定し、交差点におけるリアルタイム交通信号タイミングデータと待ち行列長に依存し、最適なモデルに基づくCAV制御戦略を導出する際の交通設定について様々な仮定を行う。
これらの課題を克服し、短期的実世界の適用性を高めるために、深部強化学習(DRL)を用いたCAV制御戦略設計のためのモデルフリーアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T06:08:53Z) - Data efficient reinforcement learning and adaptive optimal perimeter
control of network traffic dynamics [0.0]
本研究は、適応最適周波制御のためのマクロトラフィックダイナミクスの学習のための積分強化学習(IRL)に基づくアプローチを提案する。
サンプリングの複雑さを低減し、利用可能なデータをより効率的に利用するために、IRLアルゴリズムに経験再生(ER)技術を導入している。
IRLに基づくアルゴリズムの収束と制御された交通力学の安定性は、リャプノフ理論によって証明される。
論文 参考訳(メタデータ) (2022-09-13T04:28:49Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - AI-aided Traffic Control Scheme for M2M Communications in the Internet
of Vehicles [61.21359293642559]
交通のダイナミクスと異なるIoVアプリケーションの異種要求は、既存のほとんどの研究では考慮されていない。
本稿では,ハイブリッド交通制御方式とPPO法を併用して検討する。
論文 参考訳(メタデータ) (2022-03-05T10:54:05Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Combining Reinforcement Learning with Model Predictive Control for
On-Ramp Merging [10.480121529429631]
自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。
まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。
その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-17T07:42:11Z) - Constrained Model-based Reinforcement Learning with Robust Cross-Entropy
Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。
本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。
その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文 参考訳(メタデータ) (2020-10-15T18:19:35Z) - Model-Reference Reinforcement Learning for Collision-Free Tracking
Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。
強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文 参考訳(メタデータ) (2020-08-17T12:15:15Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。