論文の概要: Weakly Supervised Reinforcement Learning for Autonomous Highway Driving
via Virtual Safety Cages
- arxiv url: http://arxiv.org/abs/2103.09726v1
- Date: Wed, 17 Mar 2021 15:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 12:50:18.280388
- Title: Weakly Supervised Reinforcement Learning for Autonomous Highway Driving
via Virtual Safety Cages
- Title(参考訳): 仮想安全ケージを用いた自動運転のための弱教師付き強化学習
- Authors: Sampo Kuutti, Richard Bowden, Saber Fallah
- Abstract要約: 規則に基づく安全ケージは、車両の安全性の向上と強化学習エージェントに対する弱い監督を提供する自律型車両の縦方向制御に対する強化学習ベースのアプローチを提示する。
モデルパラメータが制約されたり,あるいは最適化されていない場合,モデルが強化学習だけでは運転を訓練できない場合でも,モデルが安全な運転方針を学習できることを示す。
- 参考スコア(独自算出の注目度): 42.57240271305088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of neural networks and reinforcement learning has become increasingly
popular in autonomous vehicle control. However, the opaqueness of the resulting
control policies presents a significant barrier to deploying neural
network-based control in autonomous vehicles. In this paper, we present a
reinforcement learning based approach to autonomous vehicle longitudinal
control, where the rule-based safety cages provide enhanced safety for the
vehicle as well as weak supervision to the reinforcement learning agent. By
guiding the agent to meaningful states and actions, this weak supervision
improves the convergence during training and enhances the safety of the final
trained policy. This rule-based supervisory controller has the further
advantage of being fully interpretable, thereby enabling traditional validation
and verification approaches to ensure the safety of the vehicle. We compare
models with and without safety cages, as well as models with optimal and
constrained model parameters, and show that the weak supervision consistently
improves the safety of exploration, speed of convergence, and model
performance. Additionally, we show that when the model parameters are
constrained or sub-optimal, the safety cages can enable a model to learn a safe
driving policy even when the model could not be trained to drive through
reinforcement learning alone.
- Abstract(参考訳): ニューラルネットワークと強化学習は、自動運転車の制御においてますます普及している。
しかし、結果として生じる制御ポリシーの不透明さは、自動運転車にニューラルネットワークベースの制御を展開する上で大きな障壁となる。
本稿では,車両の安全性向上と強化学習エージェントの監督の弱さを両立させた,自律走行車両の縦方向制御に対する強化学習方式を提案する。
エージェントを有意義な状態や行動へと導くことにより、この弱い監督は訓練中の収束を改善し、最終的な訓練された政策の安全性を高める。
このルールベースの監視制御装置は、完全に解釈可能であるという利点があり、車両の安全性を確保するために従来の検証および検証アプローチを可能にする。
我々は,モデルと安全ケージの有無,および最適かつ制約のあるモデルパラメータのモデルを比較し,弱い監督が探索の安全性,収束速度,モデル性能を一貫して改善することを示す。
さらに,モデルパラメータが制約されたり,サブ最適であったりした場合,モデルが強化学習だけでは運転できない場合でも,安全ケージによって安全な運転方針を学習できることを示す。
関連論文リスト
- Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - ConBaT: Control Barrier Transformer for Safe Policy Learning [26.023275758215423]
Control Barrier Transformer (ConBaT) は、自己管理型でデモから安全な動作を学ぶアプローチである。
デプロイメントでは、軽量なオンライン最適化を使用して、学習された安全なセット内に将来状態が確実に配置されるアクションを見つけます。
論文 参考訳(メタデータ) (2023-03-07T20:04:28Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Differentiable Control Barrier Functions for Vision-based End-to-End
Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。
我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文 参考訳(メタデータ) (2022-03-04T16:14:33Z) - Model-Reference Reinforcement Learning for Collision-Free Tracking
Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。
強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文 参考訳(メタデータ) (2020-08-17T12:15:15Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Training Adversarial Agents to Exploit Weaknesses in Deep Control
Policies [47.08581439933752]
対戦型強化学習に基づく自動ブラックボックステストフレームワークを提案する。
提案手法は, オンラインテストにおいて明らかでないコントロールポリシの両方において, 弱点を見出すことができることを示す。
論文 参考訳(メタデータ) (2020-02-27T13:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。