Fugu-MT 論文翻訳(概要): Combining Reinforcement Learning with Model Predictive Control for On-Ramp Merging

論文の概要: Combining Reinforcement Learning with Model Predictive Control for On-Ramp Merging

arxiv url: http://arxiv.org/abs/2011.08484v3
Date: Tue, 28 Sep 2021 17:12:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 16:20:56.632015
Title: Combining Reinforcement Learning with Model Predictive Control for On-Ramp Merging
Title（参考訳）: オンランプマージのための強化学習とモデル予測制御の併用
Authors: Joseph Lubars, Harsh Gupta, Sandeep Chinchali, Liyun Li, Adnan Raja, R. Srikant, and Xinzhou Wu
Abstract要約: 自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2つの幅広い手法が提案されている。まず、シミュレーションにより最先端のMPCとRLベースの技術の長所と短所を確立する。その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 10.480121529429631
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider the problem of designing an algorithm to allow a car to autonomously merge on to a highway from an on-ramp. Two broad classes of techniques have been proposed to solve motion planning problems in autonomous driving: Model Predictive Control (MPC) and Reinforcement Learning (RL). In this paper, we first establish the strengths and weaknesses of state-of-the-art MPC and RL-based techniques through simulations. We show that the performance of the RL agent is worse than that of the MPC solution from the perspective of safety and robustness to out-of-distribution traffic patterns, i.e., traffic patterns which were not seen by the RL agent during training. On the other hand, the performance of the RL agent is better than that of the MPC solution when it comes to efficiency and passenger comfort. We subsequently present an algorithm which blends the model-free RL agent with the MPC solution and show that it provides better trade-offs between all metrics -- passenger comfort, efficiency, crash rate and robustness.
Abstract（参考訳）: 我々は、自動車がオンランプから高速道路に自動でマージできるようにアルゴリズムを設計することの問題を考察する。自律運転における運動計画問題の解法として,モデル予測制御(MPC)と強化学習(RL)の2種類が提案されている。本稿では,最先端mpcとrlに基づく手法の強みと弱みをシミュレーションにより確立する。 RLエージェントの性能は,安全性とロバスト性の観点からはMPCソリューションよりも悪く,また,トレーニング中にRLエージェントに見られなかったトラフィックパターンが分布外のトラフィックパターンであることを示す。一方,効率や乗客の快適性に関しては,rlエージェントの性能がmpcソリューションよりも優れている。その後、モデルフリーなRLエージェントとMPCソリューションをブレンドして、乗客の快適性、効率性、衝突速度、堅牢性といったすべての指標間のトレードオフを改善できることを示すアルゴリズムを提案する。

関連論文リスト

Intersection of Reinforcement Learning and Bayesian Optimization for Intelligent Control of Industrial Processes: A Safe MPC-based DPG using Multi-Objective BO [0.0]
Model Predictive Control (MPC)ベースのReinforcement Learning (RL)は、Deep Neural Network (DNN)ベースのRL手法の、構造化された解釈可能な代替手段を提供する。標準MPC-RLアプローチは、収束の遅さ、パラメータ化の制限による最適条件学習、オンライン適応時の安全性の問題に悩まされることが多い。 MPC-RLと多目的ベイズ最適化(MOBO)を統合した新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-14T02:31:52Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
Model-free Learning of Corridor Clearance: A Near-term Deployment Perspective [5.39179984304986]
コネクテッド・アンド・オートマチック・ビークル(CAV)技術の公衆衛生応用は、交通を間接的に調整することで救急医療サービス(EMS)の応答時間を短縮することである。このトピックに関する既存の研究は、EMS車両の故障が通常の交通に与える影響を見落とし、100%CAVの侵入を仮定し、交差点におけるリアルタイム交通信号タイミングデータと待ち行列長に依存し、最適なモデルに基づくCAV制御戦略を導出する際の交通設定について様々な仮定を行う。これらの課題を克服し、短期的実世界の適用性を高めるために、深部強化学習(DRL)を用いたCAV制御戦略設計のためのモデルフリーアプローチを提案する。
論文参考訳（メタデータ） (2023-12-16T06:08:53Z)
Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。 SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。近年開発されたディープRL法を車両軌道制御に適用した。
論文参考訳（メタデータ） (2023-11-30T09:38:59Z)
Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。 RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文参考訳（メタデータ） (2023-11-15T09:50:54Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques [4.042717292629285]
本稿では,Deep Reinforcement Learning(DRL)に基づく車追従・車線変更決定制御システムを提案する。我々は、よく知られたDQNアルゴリズムを用いてRLエージェントを訓練し、適切な判断を下す。提案したモデルの性能を,エプシロン・グレーディ・ポリシーとボルツマン・ポリシーの2つのポリシーで評価する。
論文参考訳（メタデータ） (2023-09-25T15:33:08Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Unified Automatic Control of Vehicular Systems with Reinforcement Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。最小限の手動設計で高性能な制御戦略を発見する。この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文参考訳（メタデータ） (2022-07-30T16:23:45Z)
Policy Search for Model Predictive Control with Application to Agile Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文参考訳（メタデータ） (2021-12-07T17:39:24Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Learning Vehicle Routing Problems using Policy Optimisation [4.093722933440819]
最先端のアプローチは強化学習を使ってポリシーを学習し、学習ポリシーは擬似解法として機能する。これらのアプローチは、あるケースでは優れた性能を示しているが、ルーティング問題に典型的な大きな検索空間を考えると、ポリシーの貧弱さに早すぎる可能性がある。より多くのポリシーを提供することで探索を支援するエントロピー正規化強化学習(ERRL)を提案する。
論文参考訳（メタデータ） (2020-12-24T14:18:56Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。