論文の概要: Tactical Decision-Making in Autonomous Driving by Reinforcement Learning
with Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2004.10439v1
- Date: Wed, 22 Apr 2020 08:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 17:37:33.312732
- Title: Tactical Decision-Making in Autonomous Driving by Reinforcement Learning
with Uncertainty Estimation
- Title(参考訳): 不確実性推定による強化学習による自律運転の戦術的意思決定
- Authors: Carl-Johan Hoel, Krister Wolff, Leo Laine
- Abstract要約: 強化学習は、自律運転のための戦術的意思決定エージェントを作成するために使用できる。
本稿では,自動走行における意思決定の不確かさを推定するためにベイズRL手法をいかに活用するかを検討する。
- 参考スコア(独自算出の注目度): 0.9883261192383611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) can be used to create a tactical decision-making
agent for autonomous driving. However, previous approaches only output
decisions and do not provide information about the agent's confidence in the
recommended actions. This paper investigates how a Bayesian RL technique, based
on an ensemble of neural networks with additional randomized prior functions
(RPF), can be used to estimate the uncertainty of decisions in autonomous
driving. A method for classifying whether or not an action should be considered
safe is also introduced. The performance of the ensemble RPF method is
evaluated by training an agent on a highway driving scenario. It is shown that
the trained agent can estimate the uncertainty of its decisions and indicate an
unacceptable level when the agent faces a situation that is far from the
training distribution. Furthermore, within the training distribution, the
ensemble RPF agent outperforms a standard Deep Q-Network agent. In this study,
the estimated uncertainty is used to choose safe actions in unknown situations.
However, the uncertainty information could also be used to identify situations
that should be added to the training process.
- Abstract(参考訳): 強化学習(RL)は、自律運転のための戦術的意思決定エージェントを作成するために用いられる。
しかし、以前のアプローチは意思決定のみを出力し、推奨アクションに対するエージェントの信頼度に関する情報を提供しない。
本稿では,自律運転における決定の不確かさを推定するために,追加のランダム化事前関数(RPF)を持つニューラルネットワークのアンサンブルに基づくベイズRL手法について検討する。
アクションが安全であるべきかどうかを分類する手法も導入されている。
アンサンブルRPF法の性能は,高速道路走行シナリオにおけるエージェントの訓練により評価される。
訓練されたエージェントは、その決定の不確実性を推定でき、訓練分布から遠い状況に直面した場合、許容できないレベルを示すことができる。
さらに、訓練分布内では、アンサンブルrpfエージェントが標準のディープqネットワークエージェントを上回る。
本研究では,不確かさを推定し,未知の状況において安全な行動を選択する。
しかし、不確実性情報は、トレーニングプロセスに追加されるべき状況を特定するためにも使用できる。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - Analyzing Intentional Behavior in Autonomous Agents under Uncertainty [3.0099979365586265]
不確実な環境での自律的な意思決定の原則的説明責任は、否定的な設計と実際の事故との意図的な結果の区別を必要とする。
本稿では、意図的行動の証拠を定量的に測定し、自律エージェントの行動を分析することを提案する。
ケーススタディでは,本手法が「意図的」交通衝突と「事故的」交通衝突を区別できることを示す。
論文 参考訳(メタデータ) (2023-07-04T07:36:11Z) - Identify, Estimate and Bound the Uncertainty of Reinforcement Learning
for Autonomous Driving [4.932817328815897]
深部強化学習(DRL)は、よりインテリジェントな自動運転車(AV)を開発するための有望なアプローチとして登場した。
本研究は,DRL運転ポリシーの信頼性の低い決定を識別し,保護する手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T13:58:31Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning
with Applications in Autonomous Driving [1.6758573326215689]
強化学習は、自律運転のための意思決定エージェントを作成するために使用できる。
これまでのアプローチではブラックボックスソリューションのみを提供しており、エージェントがその決定に対する自信について情報を提供していない。
本稿では,分布RLとアンサンブルアプローチを組み合わせて完全不確実性推定を行うEnsemble Quantile Networks (EQN)法を提案する。
論文 参考訳(メタデータ) (2021-05-21T10:36:16Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Can Autonomous Vehicles Identify, Recover From, and Adapt to
Distribution Shifts? [104.04999499189402]
トレーニング外の配布(OOD)シナリオは、デプロイ時にエージェントを学ぶ上で一般的な課題である。
インプロバスト模倣計画(RIP)と呼ばれる不確実性を考慮した計画手法を提案する。
提案手法は,OODシーンにおける過信および破滅的な外挿を低減し,分布変化を検知し,回復することができる。
分散シフトを伴うタスク群に対する駆動エージェントのロバスト性を評価するために,自動走行車ノベルシーンベンチマークであるtexttCARNOVEL を導入する。
論文 参考訳(メタデータ) (2020-06-26T11:07:32Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Reinforcement Learning with Uncertainty Estimation for Tactical
Decision-Making in Intersections [0.0]
本稿では,ベイズ強化学習法を用いて,自律運転のための戦術的意思決定エージェントを構築する方法について検討する。
追加のランダム化事前関数(RPF)を備えたニューラルネットワークのアンサンブルは、ブートストラップされたエクスペリエンス再生メモリを使用してトレーニングされる。
訓練されたアンサンブルRPFエージェントは、訓練分布から遠くない状況と、訓練分布内ではめったに発生しない状況の両方において、高い不確実性を有する症例を検出することができる。
論文 参考訳(メタデータ) (2020-06-17T11:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。