論文の概要: Safe Reinforcement Learning for an Energy-Efficient Driver Assistance
System
- arxiv url: http://arxiv.org/abs/2301.00904v1
- Date: Tue, 3 Jan 2023 00:25:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 15:23:30.776237
- Title: Safe Reinforcement Learning for an Energy-Efficient Driver Assistance
System
- Title(参考訳): 省エネ運転支援システムのための安全強化学習
- Authors: Habtamu Hailemichael, Beshah Ayalew, Lindsey Kerbel, Andrej Ivanco,
Keith Loiselle
- Abstract要約: 強化学習(Reinforcement Learning, RL)に基づく運転支援システムは, 電力系統制御動作の継続的な改善を通じて, 燃費の向上を図る。
本稿では,RLに基づく運転支援システムによって提案される安全でない動作をフィルタするために,指数制御障壁関数(ECBF)を導出して利用する。
提案手法は, 走行中の衝突を効果的に回避できることを示すため, 車両内での安全RLスキームの訓練と評価を行う。
- 参考スコア(独自算出の注目度): 1.8899300124593645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL)-based driver assistance systems seek to improve
fuel consumption via continual improvement of powertrain control actions
considering experiential data from the field. However, the need to explore
diverse experiences in order to learn optimal policies often limits the
application of RL techniques in safety-critical systems like vehicle control.
In this paper, an exponential control barrier function (ECBF) is derived and
utilized to filter unsafe actions proposed by an RL-based driver assistance
system. The RL agent freely explores and optimizes the performance objectives
while unsafe actions are projected to the closest actions in the safe domain.
The reward is structured so that driver's acceleration requests are met in a
manner that boosts fuel economy and doesn't compromise comfort. The optimal
gear and traction torque control actions that maximize the cumulative reward
are computed via the Maximum a Posteriori Policy Optimization (MPO) algorithm
configured for a hybrid action space. The proposed safe-RL scheme is trained
and evaluated in car following scenarios where it is shown that it effectively
avoids collision both during training and evaluation while delivering on the
expected fuel economy improvements for the driver assistance system.
- Abstract(参考訳): 強化学習(rl)に基づく運転支援システムは,現場からの経験データを考慮したパワートレイン制御行動の継続的な改善を通じて,燃費の向上を目指す。
しかしながら、最適なポリシーを学ぶために多様な経験を探求する必要性は、車両制御のような安全クリティカルなシステムにおけるRL技術の適用を制限することが多い。
本稿では,RLに基づく運転支援システムによって提案される安全でない動作をフィルタするために,指数制御障壁関数(ECBF)を導出して利用する。
rlエージェントは、unsafeアクションがsafeドメインの最も近いアクションに投影される間、パフォーマンス目標を自由に探索し、最適化する。
報酬は、運転者の加速要求が燃料経済を加速し、快適さを損なわない方法で満たされるように構成されている。
この累積報酬を最大化する最適歯車及び牽引トルク制御動作は、ハイブリッド動作空間に設定された最大後続ポリシー最適化(mpo)アルゴリズムにより計算される。
提案手法は, 運転支援システムに期待される燃費改善を納入しながら, 訓練と評価の両方において衝突を効果的に回避できることが示されている。
関連論文リスト
- CAT: Closed-loop Adversarial Training for Safe End-to-End Driving [54.60865656161679]
Adversarial Training (CAT) は、自動運転車における安全なエンドツーエンド運転のためのフレームワークである。
Catは、安全クリティカルなシナリオでエージェントを訓練することで、運転エージェントの安全性を継続的に改善することを目的としている。
猫は、訓練中のエージェントに対抗する敵シナリオを効果的に生成できる。
論文 参考訳(メタデータ) (2023-10-19T02:49:31Z) - Risk-Aware Reward Shaping of Reinforcement Learning Agents for
Autonomous Driving [6.613838702441967]
本稿では,自律運転におけるRLエージェントのトレーニングとテスト性能を活用するために,リスク認識型報酬形成手法について検討する。
我々は、危険運転行動の探索と罰則を奨励する追加のリフォーム報酬項を提案する。
論文 参考訳(メタデータ) (2023-06-05T20:10:36Z) - Driver Assistance Eco-driving and Transmission Control with Deep
Reinforcement Learning [2.064612766965483]
本稿では, モデルフリー深部強化学習(RL)制御エージェントを提案する。
燃料消費を他の運転者の収容目標と交換し、最適な牽引トルクと伝達シフトポリシーを経験から学習する。
燃料効率テーブルの知識を十分に備えたベースラインコントローラと比較して, 燃料消費量の最小化に優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-15T02:52:07Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Unified Automatic Control of Vehicular Systems with Reinforcement
Learning [64.63619662693068]
本稿では,車載マイクロシミュレーションの合理化手法について述べる。
最小限の手動設計で高性能な制御戦略を発見する。
この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。
論文 参考訳(メタデータ) (2022-07-30T16:23:45Z) - Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic
Junction Driving [20.85562165500152]
道路交通ジャンクションのシナリオでは、車両は通常、輸送環境から部分的な観察を受ける。
本研究では,3つのベースラインDRLモデル(DQN,A2C,PPO)の安全性評価を行った。
提案した自己認識注意-DQNは,交差点およびラウンドアバウンドシナリオにおける安全性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-01-20T11:21:33Z) - Driving-Policy Adaptive Safeguard for Autonomous Vehicles Using
Reinforcement Learning [19.71676985220504]
本稿では,衝突回避戦略とアクティベーション機能を含むDPAS設計を提案する。
運転政策適応型アクティベーション機能は、緊急脅威が検出された場合に、現在の運転方針リスクを動的に評価し、起動する必要がある。
実験の結果は自然発生運転データにより校正され, より多くの介入を伴わずに, 衝突速度を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-12-02T08:01:53Z) - Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement
Learning with Continuous Action Horizon [14.059728921828938]
本稿では,高速道路における連続水平決定問題に対処するために,深部強化学習(DRL)手法を用いる。
エゴ自動車両の走行目標は、衝突することなく効率的でスムーズなポリシーを実行することである。
PPO-DRLに基づく意思決定戦略は、最適性、学習効率、適応性など、複数の観点から推定される。
論文 参考訳(メタデータ) (2020-08-26T22:49:27Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。