論文の概要: Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in
Connected and Automated Hybrid Electric Vehicles
- arxiv url: http://arxiv.org/abs/2105.11640v1
- Date: Tue, 25 May 2021 03:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 13:42:03.073215
- Title: Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in
Connected and Automated Hybrid Electric Vehicles
- Title(参考訳): ハイブリッド電気自動車におけるエコ運転のための安全モデルに基づくオフポリシー強化学習
- Authors: Zhaoxuan Zhu, Nicola Pivaro, Shobhit Gupta, Abhishek Gupta and
Marcello Canova
- Abstract要約: 本研究は,エコドライブ問題に対するセーフオフポジーモデルに基づく強化学習アルゴリズムを提案する。
提案アルゴリズムは, モデルフリーエージェントと比較して, 平均速度が高く, 燃費も良好である。
- 参考スコア(独自算出の注目度): 3.5259944260228977
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Connected and Automated Hybrid Electric Vehicles have the potential to reduce
fuel consumption and travel time in real-world driving conditions. The
eco-driving problem seeks to design optimal speed and power usage profiles
based upon look-ahead information from connectivity and advanced mapping
features. Recently, Deep Reinforcement Learning (DRL) has been applied to the
eco-driving problem. While the previous studies synthesize simulators and
model-free DRL to reduce online computation, this work proposes a Safe
Off-policy Model-Based Reinforcement Learning algorithm for the eco-driving
problem. The advantages over the existing literature are three-fold. First, the
combination of off-policy learning and the use of a physics-based model
improves the sample efficiency. Second, the training does not require any
extrinsic rewarding mechanism for constraint satisfaction. Third, the
feasibility of trajectory is guaranteed by using a safe set approximated by
deep generative models.
The performance of the proposed method is benchmarked against a baseline
controller representing human drivers, a previously designed model-free DRL
strategy, and the wait-and-see optimal solution. In simulation, the proposed
algorithm leads to a policy with a higher average speed and a better fuel
economy compared to the model-free agent. Compared to the baseline controller,
the learned strategy reduces the fuel consumption by more than 21\% while
keeping the average speed comparable.
- Abstract(参考訳): コネクテッド・アンド・オートモーテッドハイブリッド電気自動車は、現実の運転条件下での燃料消費と走行時間を削減できる可能性がある。
エコ運転問題は、コネクティビティと高度なマッピング機能からの先見情報に基づいて、最適な速度と電力使用量プロファイルを設計することを目指している。
近年,Deep Reinforcement Learning (DRL) がエコドライブ問題に応用されている。
従来の研究では,シミュレータとモデルフリーDRLを合成してオンライン計算を減らし,エコドライブ問題に対するセーフオフポリスモデルベース強化学習アルゴリズムを提案する。
現存する文献の利点は3倍である。
まず,オフポリシー学習と物理モデルの利用の組み合わせにより,サンプル効率が向上する。
第二に、トレーニングは制約満足度に対する外部報酬メカニズムを必要としない。
第三に、深い生成モデルにより近似された安全な集合を用いて軌道の実現性を保証する。
提案手法の性能を,人間の運転者を表すベースラインコントローラ,設計済みのモデルフリーDRL戦略,待ち時間最適解に対してベンチマークする。
シミュレーションにおいて,提案手法は,モデルフリーエージェントよりも平均速度が高く,燃費が良い政策に導かれる。
ベースラインコントローラと比較すると、学習した戦略は平均速度を同等に保ちながら、燃料消費量を21\%以上削減する。
関連論文リスト
- Physics Enhanced Residual Policy Learning (PERPL) for safety cruising in mixed traffic platooning under actuator and communication delay [8.172286651098027]
線形制御モデルは、その単純さ、使いやすさ、安定性解析のサポートにより、車両制御に広範囲に応用されている。
一方、強化学習(RL)モデルは適応性を提供するが、解釈可能性や一般化能力の欠如に悩まされる。
本稿では,物理インフォームドポリシによって強化されたRL制御系の開発を目標とする。
論文 参考訳(メタデータ) (2024-09-23T23:02:34Z) - EcoFollower: An Environment-Friendly Car Following Model Considering Fuel Consumption [9.42048156323799]
本研究では,自動車追従シナリオにおける燃料消費を最適化するために強化学習(RL)を用いて開発された新しいエコカー追従モデルであるEcoFollowerを紹介する。
このモデルは燃料消費を大幅に削減し、実際の運転シナリオと比較して10.42%削減した。
論文 参考訳(メタデータ) (2024-07-22T16:48:37Z) - MetaFollower: Adaptable Personalized Autonomous Car Following [63.90050686330677]
適応型パーソナライズされた自動車追従フレームワークであるMetaFollowerを提案する。
まず,モデルに依存しないメタラーニング(MAML)を用いて,様々なCFイベントから共通運転知識を抽出する。
さらに、Long Short-Term Memory (LSTM) と Intelligent Driver Model (IDM) を組み合わせて、時間的不均一性を高い解釈性で反映する。
論文 参考訳(メタデータ) (2024-06-23T15:30:40Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - RACER: Rational Artificial Intelligence Car-following-model Enhanced by
Reality [51.244807332133696]
本稿では,アダプティブ・クルーズ・コントロール(ACC)運転行動を予測する,最先端の深層学習車追従モデルであるRACERを紹介する。
従来のモデルとは異なり、RACERは実走行の重要な要素であるRDC(Rational Driving Constraints)を効果的に統合している。
RACERはアクセラレーション、ベロシティ、スペーシングといった主要なメトリクスを網羅し、ゼロ違反を登録する。
論文 参考訳(メタデータ) (2023-12-12T06:21:30Z) - Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
論文 参考訳(メタデータ) (2023-11-30T09:38:59Z) - Eco-Driving Control of Connected and Automated Vehicles using Neural
Network based Rollout [0.0]
接続された自動運転車は、エネルギー消費を最小化する可能性がある。
既存の決定論的手法は、一般に高い計算とメモリ要求に悩まされる。
本研究ではニューラルネットワークを介して実装された階層型マルチ水平最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-16T23:13:51Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Driver Assistance Eco-driving and Transmission Control with Deep
Reinforcement Learning [2.064612766965483]
本稿では, モデルフリー深部強化学習(RL)制御エージェントを提案する。
燃料消費を他の運転者の収容目標と交換し、最適な牽引トルクと伝達シフトポリシーを経験から学習する。
燃料効率テーブルの知識を十分に備えたベースラインコントローラと比較して, 燃料消費量の最小化に優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-15T02:52:07Z) - An Energy Consumption Model for Electrical Vehicle Networks via Extended
Federated-learning [50.85048976506701]
本稿では,フェデレートラーニングモデルに基づく不安度を測る新しい手法を提案する。
バッテリー消費を推定し、車両ネットワークにエネルギー効率の高いルートプランニングを提供する。
論文 参考訳(メタデータ) (2021-11-13T15:03:44Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。