論文の概要: Safe Driving via Expert Guided Policy Optimization
- arxiv url: http://arxiv.org/abs/2110.06831v1
- Date: Wed, 13 Oct 2021 16:19:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 15:20:17.353287
- Title: Safe Driving via Expert Guided Policy Optimization
- Title(参考訳): 専門家ガイドによる安全運転の最適化
- Authors: Zhenghao Peng, Quanyi Li, Chunxiao Liu, Bolei Zhou
- Abstract要約: エキスパート・イン・ザ・ループ強化学習は、学習エージェントの探索を保護するために使用される。
我々は,強化学習のループに保護者を統合する新しい専門家誘導政策最適化(EGPO)手法を開発した。
本手法は, 試験時間の安全性と優れたトレーニングを達成し, サンプル効率のかなりのマージンでベースラインを上回り, テスト時間において, 目に見えない環境に対する一般性を維持している。
- 参考スコア(独自算出の注目度): 38.68691065718655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When learning common skills like driving, beginners usually have domain
experts standing by to ensure the safety of the learning process. We formulate
such learning scheme under the Expert-in-the-loop Reinforcement Learning where
a guardian is introduced to safeguard the exploration of the learning agent.
While allowing the sufficient exploration in the uncertain environment, the
guardian intervenes under dangerous situations and demonstrates the correct
actions to avoid potential accidents. Thus ERL enables both exploration and
expert's partial demonstration as two training sources. Following such a
setting, we develop a novel Expert Guided Policy Optimization (EGPO) method
which integrates the guardian in the loop of reinforcement learning. The
guardian is composed of an expert policy to generate demonstration and a switch
function to decide when to intervene. Particularly, a constrained optimization
technique is used to tackle the trivial solution that the agent deliberately
behaves dangerously to deceive the expert into taking over. Offline RL
technique is further used to learn from the partial demonstration generated by
the expert. Safe driving experiments show that our method achieves superior
training and test-time safety, outperforms baselines with a substantial margin
in sample efficiency, and preserves the generalizabiliy to unseen environments
in test-time. Demo video and source code are available at:
https://decisionforce.github.io/EGPO/
- Abstract(参考訳): 運転のような一般的なスキルを学ぶとき、初心者は通常、学習プロセスの安全性を確保するためにドメインの専門家が待機する。
本稿では,学習エージェントの探索を保護するために保護者を導入するループ強化学習において,そのような学習方法を定式化する。
不確実な環境で十分な探索を可能にする一方で、保護者は危険な状況に介入し、潜在的な事故を避けるための正しい行動を示す。
したがって、ERLは2つのトレーニングソースとして、探査と専門家の部分的なデモンストレーションの両方を可能にする。
このような設定に続き、強化学習のループに保護者を統合する新しい専門家誘導政策最適化(EGPO)手法を開発した。
ガーディアンは、デモを生成する専門家ポリシーと、いつ介入するかを決定するスイッチ機能から構成される。
特に、制約付き最適化技術は、エージェントが故意に危険に振る舞って専門家を騙して引き継ぐという自明な解決策に取り組むために用いられる。
オフラインRL技術は、専門家によって生成された部分的なデモンストレーションから学ぶためにさらに使われる。
安全運転実験は,本手法が優れたトレーニングとテスト時間安全を実現し,サンプル効率のかなりのマージンでベースラインを上回り,テスト時間内に見えない環境に保たれることを示す。
デモビデオとソースコードは、 https://decisionforce.github.io/EGPO/で入手できる。
関連論文リスト
- Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Learning to Drive Using Sparse Imitation Reinforcement Learning [0.5076419064097732]
本稿では,知識を育成するスパース専門家と強化学習(RL)政策を組み合わせたハイブリッドエンドツーエンド制御政策を提案する。
CARLAシミュレータ内の複雑な都市シナリオにおけるSIRL手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2022-05-24T15:03:11Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Learn to Exceed: Stereo Inverse Reinforcement Learning with Concurrent
Policy Optimization [1.0965065178451106]
マルコフ決定過程において、専門家による実証を模倣し、性能を向上できる制御ポリシーを得るという課題について検討する。
主な関連する1つのアプローチは逆強化学習(IRL)であり、主に専門家によるデモンストレーションから報酬関数を推測することに焦点を当てている。
本稿では,新たな報酬と行動方針学習アプローチを通じて,学習エージェントが実証者より優れる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-21T02:16:21Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。