Fugu-MT 論文翻訳(概要): Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages

論文の概要: Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages

arxiv url: http://arxiv.org/abs/2103.09726v1
Date: Wed, 17 Mar 2021 15:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-18 12:50:18.280388
Title: Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages
Title（参考訳）: 仮想安全ケージを用いた自動運転のための弱教師付き強化学習
Authors: Sampo Kuutti, Richard Bowden, Saber Fallah
Abstract要約: 規則に基づく安全ケージは、車両の安全性の向上と強化学習エージェントに対する弱い監督を提供する自律型車両の縦方向制御に対する強化学習ベースのアプローチを提示する。モデルパラメータが制約されたり,あるいは最適化されていない場合,モデルが強化学習だけでは運転を訓練できない場合でも,モデルが安全な運転方針を学習できることを示す。
参考スコア（独自算出の注目度）: 42.57240271305088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of neural networks and reinforcement learning has become increasingly popular in autonomous vehicle control. However, the opaqueness of the resulting control policies presents a significant barrier to deploying neural network-based control in autonomous vehicles. In this paper, we present a reinforcement learning based approach to autonomous vehicle longitudinal control, where the rule-based safety cages provide enhanced safety for the vehicle as well as weak supervision to the reinforcement learning agent. By guiding the agent to meaningful states and actions, this weak supervision improves the convergence during training and enhances the safety of the final trained policy. This rule-based supervisory controller has the further advantage of being fully interpretable, thereby enabling traditional validation and verification approaches to ensure the safety of the vehicle. We compare models with and without safety cages, as well as models with optimal and constrained model parameters, and show that the weak supervision consistently improves the safety of exploration, speed of convergence, and model performance. Additionally, we show that when the model parameters are constrained or sub-optimal, the safety cages can enable a model to learn a safe driving policy even when the model could not be trained to drive through reinforcement learning alone.
Abstract（参考訳）: ニューラルネットワークと強化学習は、自動運転車の制御においてますます普及している。しかし、結果として生じる制御ポリシーの不透明さは、自動運転車にニューラルネットワークベースの制御を展開する上で大きな障壁となる。本稿では,車両の安全性向上と強化学習エージェントの監督の弱さを両立させた,自律走行車両の縦方向制御に対する強化学習方式を提案する。エージェントを有意義な状態や行動へと導くことにより、この弱い監督は訓練中の収束を改善し、最終的な訓練された政策の安全性を高める。このルールベースの監視制御装置は、完全に解釈可能であるという利点があり、車両の安全性を確保するために従来の検証および検証アプローチを可能にする。我々は,モデルと安全ケージの有無,および最適かつ制約のあるモデルパラメータのモデルを比較し,弱い監督が探索の安全性,収束速度,モデル性能を一貫して改善することを示す。さらに,モデルパラメータが制約されたり,サブ最適であったりした場合,モデルが強化学習だけでは運転できない場合でも,安全ケージによって安全な運転方針を学習できることを示す。

関連論文リスト

Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
Evaluation of Safety Constraints in Autonomous Navigation with Deep Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文参考訳（メタデータ） (2023-07-27T01:04:57Z)
ConBaT: Control Barrier Transformer for Safe Policy Learning [26.023275758215423]
Control Barrier Transformer (ConBaT) は、自己管理型でデモから安全な動作を学ぶアプローチである。デプロイメントでは、軽量なオンライン最適化を使用して、学習された安全なセット内に将来状態が確実に配置されるアクションを見つけます。
論文参考訳（メタデータ） (2023-03-07T20:04:28Z)
ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文参考訳（メタデータ） (2022-12-06T18:53:34Z)
Differentiable Control Barrier Functions for Vision-based End-to-End Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文参考訳（メタデータ） (2022-03-04T16:14:33Z)
Model-Reference Reinforcement Learning for Collision-Free Tracking Control of Autonomous Surface Vehicles [1.7033108359337459]
提案する制御アルゴリズムは,従来の制御手法と強化学習を組み合わせることで,制御精度と知性を向上させる。強化学習により、全体トラッキングコントローラはモデルの不確実性を補償し、衝突回避を実現することができる。
論文参考訳（メタデータ） (2020-08-17T12:15:15Z)
Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文参考訳（メタデータ） (2020-06-22T10:48:17Z)
Training Adversarial Agents to Exploit Weaknesses in Deep Control Policies [47.08581439933752]
対戦型強化学習に基づく自動ブラックボックステストフレームワークを提案する。提案手法は, オンラインテストにおいて明らかでないコントロールポリシの両方において, 弱点を見出すことができることを示す。
論文参考訳（メタデータ） (2020-02-27T13:14:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。