論文の概要: Learning Time Reduction Using Warm Start Methods for a Reinforcement
Learning Based Supervisory Control in Hybrid Electric Vehicle Applications
- arxiv url: http://arxiv.org/abs/2010.14575v1
- Date: Tue, 27 Oct 2020 19:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:26:28.878720
- Title: Learning Time Reduction Using Warm Start Methods for a Reinforcement
Learning Based Supervisory Control in Hybrid Electric Vehicle Applications
- Title(参考訳): ハイブリッド電気自動車における強化学習に基づく監視制御のためのウォームスタート法による学習時間短縮
- Authors: Bin Xu, Jun Hou, Junzhe Shi, Huayi Li, Dhruvang Rathod, Zhe Wang,
Zoran Filipi
- Abstract要約: 本研究では,HEVアプリケーションにおけるQ-ラーニングの学習イテレーションを削減し,温暖化開始法を利用した初期学習フェーズにおける燃料消費を改善することを目的とする。
その結果、提案したウォームスタートQ-ラーニングは、コールドスタートQ-ラーニングよりも68.8%少ないイテレーションを必要とすることがわかった。
- 参考スコア(独自算出の注目度): 6.728179095424962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is widely utilized in the field of robotics, and
as such, it is gradually being implemented in the Hybrid Electric Vehicle (HEV)
supervisory control. Even though RL exhibits excellent performance in terms of
fuel consumption minimization in simulation, the large learning iteration
number needs a long learning time, making it hardly applicable in real-world
vehicles. In addition, the fuel consumption of initial learning phases is much
worse than baseline controls. This study aims to reduce the learning iterations
of Q-learning in HEV application and improve fuel consumption in initial
learning phases utilizing warm start methods. Different from previous studies,
which initiated Q-learning with zero or random Q values, this study initiates
the Q-learning with different supervisory controls (i.e., Equivalent
Consumption Minimization Strategy control and heuristic control), and detailed
analysis is given. The results show that the proposed warm start Q-learning
requires 68.8% fewer iterations than cold start Q-learning. The trained
Q-learning is validated in two different driving cycles, and the results show
10-16% MPG improvement when compared to Equivalent Consumption Minimization
Strategy control. Furthermore, real-time feasibility is analyzed, and the
guidance of vehicle implementation is provided. The results of this study can
be used to facilitate the deployment of RL in vehicle supervisory control
applications.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)はロボット工学の分野で広く利用されており, ハイブリッド電気自動車(HEV)の監視制御において徐々に実施されている。
rlは、シミュレーションにおける燃料消費量の最小化の観点からは優れた性能を示すが、大きな学習イテレーション数には長い学習時間が必要であり、実車では適用できない。
また, 初期学習段階の燃料消費は, ベースライン制御よりもはるかに悪い。
本研究は, hev応用におけるq-learningの学習イテレーションを削減し, ウォームスタート法を用いた初期学習段階における燃料消費量を改善することを目的とする。
ゼロまたはランダムなq値を持つq-ラーニングを開始した以前の研究とは異なり、異なる監督制御(すなわち、等価消費最小化戦略制御とヒューリスティック制御)を持つq-ラーニングを開始し、詳細な分析を行う。
その結果、提案するウォームスタートq学習は、コールドスタートq学習よりも68.8%少ないイテレーションを必要とすることがわかった。
訓練されたq-learningは2つの異なる運転サイクルで検証され、等価な消費最小化戦略制御と比較して10-16%mpg改善を示す。
さらに、リアルタイム実現可能性を分析し、車両実装のガイダンスを提供する。
本研究の結果は,車両監視制御アプリケーションにおけるRLの展開を容易にするために利用できる。
関連論文リスト
- Data-efficient Deep Reinforcement Learning for Vehicle Trajectory
Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。
SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。
近年開発されたディープRL法を車両軌道制御に適用した。
論文 参考訳(メタデータ) (2023-11-30T09:38:59Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Towards Optimal Energy Management Strategy for Hybrid Electric Vehicle
with Reinforcement Learning [5.006685959891296]
強化学習(Reinforcement Learning, RL)は、知的制御戦略を学習するための効果的なソリューションであることが証明されている。
本稿では, FASTSim というオープンソースの車両シミュレーションツールと RL ベースの EMS を実装し, 統合する新しいフレームワークを提案する。
学習したRLベースのEMSは、異なるテスト駆動サイクルを用いて様々な車両モデル上で評価され、エネルギー効率の向上に有効であることが証明された。
論文 参考訳(メタデータ) (2023-05-21T06:29:17Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - A Lifetime Extended Energy Management Strategy for Fuel Cell Hybrid
Electric Vehicles via Self-Learning Fuzzy Reinforcement Learning [0.0]
燃料電池ハイブリッド電気自動車のファジィ強化学習に基づくエネルギー管理戦略を提案する。
Fuzzy Q-learningはモデルなしの強化学習であり、環境と対話することで学習することができる。
ファジィ論理を適用してQラーニングの値関数を近似すると、連続状態やアクション空間の問題を解くことができる。
論文 参考訳(メタデータ) (2023-02-13T10:20:21Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in
Connected and Automated Hybrid Electric Vehicles [3.5259944260228977]
本研究は,エコドライブ問題に対するセーフオフポジーモデルに基づく強化学習アルゴリズムを提案する。
提案アルゴリズムは, モデルフリーエージェントと比較して, 平均速度が高く, 燃費も良好である。
論文 参考訳(メタデータ) (2021-05-25T03:41:29Z) - Energy Consumption and Battery Aging Minimization Using a Q-learning
Strategy for a Battery/Ultracapacitor Electric Vehicle [5.842691464468424]
本研究では,Qラーニングに基づく電池劣化とエネルギー消費を最小化するための戦略を提案する。
その結果,Q-ラーニング戦略はバッテリ劣化を13-20%遅くし,車両の走行距離を1.5-2%向上させることが示唆された。
論文 参考訳(メタデータ) (2020-10-27T07:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。