論文の概要: Reinforcement Learning with Uncertainty Estimation for Tactical
Decision-Making in Intersections
- arxiv url: http://arxiv.org/abs/2006.09786v1
- Date: Wed, 17 Jun 2020 11:29:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 20:08:27.273943
- Title: Reinforcement Learning with Uncertainty Estimation for Tactical
Decision-Making in Intersections
- Title(参考訳): インターセクションにおける戦術的意思決定のための不確かさ推定による強化学習
- Authors: Carl-Johan Hoel, Tommy Tram, Jonas Sj\"oberg
- Abstract要約: 本稿では,ベイズ強化学習法を用いて,自律運転のための戦術的意思決定エージェントを構築する方法について検討する。
追加のランダム化事前関数(RPF)を備えたニューラルネットワークのアンサンブルは、ブートストラップされたエクスペリエンス再生メモリを使用してトレーニングされる。
訓練されたアンサンブルRPFエージェントは、訓練分布から遠くない状況と、訓練分布内ではめったに発生しない状況の両方において、高い不確実性を有する症例を検出することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how a Bayesian reinforcement learning method can be
used to create a tactical decision-making agent for autonomous driving in an
intersection scenario, where the agent can estimate the confidence of its
recommended actions. An ensemble of neural networks, with additional randomized
prior functions (RPF), are trained by using a bootstrapped experience replay
memory. The coefficient of variation in the estimated $Q$-values of the
ensemble members is used to approximate the uncertainty, and a criterion that
determines if the agent is sufficiently confident to make a particular decision
is introduced. The performance of the ensemble RPF method is evaluated in an
intersection scenario, and compared to a standard Deep Q-Network method. It is
shown that the trained ensemble RPF agent can detect cases with high
uncertainty, both in situations that are far from the training distribution,
and in situations that seldom occur within the training distribution. In this
study, the uncertainty information is used to choose safe actions in unknown
situations, which removes all collisions from within the training distribution,
and most collisions outside of the distribution.
- Abstract(参考訳): 本稿では,ベイズ強化学習法を用いて,エージェントが推奨行動の信頼度を推定できる交差点シナリオにおいて,自律運転のための戦術的意思決定エージェントを作成する方法について検討する。
追加のランダム化事前関数(RPF)を備えたニューラルネットワークのアンサンブルは、ブートストラップされたエクスペリエンス再生メモリを使用してトレーニングされる。
アンサンブル部材の推定値q$値の変動係数を用いて不確実性を近似し、エージェントが特定の決定を行うのに十分な自信があるかどうかを判定する基準を導入する。
アンサンブルRPF法の性能を交差シナリオで評価し,標準Q-Network法と比較した。
また, トレーニング分布から遠い状況と, トレーニング分布内ではほとんど発生しない状況の両方において, 高い不確実性を有する症例を, 訓練アンサンブルrpfエージェントが検出できることが示されている。
本研究では,不確実性情報を用いて未知の状況における安全な行動の選択を行い,訓練分布内からすべての衝突を除去し,分布外における衝突のほとんどを除去した。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Correcting Underrepresentation and Intersectional Bias for Fair
Classification [55.2480439325792]
偏見バイアスによって劣化したデータから学習する問題について考察し, 正の例を, 一定の数のセンシティブなグループに対して, 異なる未知のレートでフィルタする。
交叉群のメンバーシップが各交叉率を計算不能にするような設定であっても,少数の偏りのないデータを用いてグループワイド・ドロップアウトパラメータを効率的に推定できることが示される。
我々は,この学習と再重み付け過程をカプセル化するアルゴリズムを提案し,高い確率で真の分布に対する仮説のリスクが任意に近いことをPACスタイルの強い保証を提供する。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Learning from a Biased Sample [5.162622771922123]
本稿では,テスト分布のファミリーで発生する最悪のリスクを最小限に抑える決定ルールの学習方法を提案する。
我々は,盗難手法を用いてロバストなモデルを学習するための統計的保証を与え,損失関数がターゲットを捕捉する深層学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-05T04:19:16Z) - Federated Learning with Uncertainty via Distilled Predictive
Distributions [14.828509220023387]
筆者らは,各ラウンドにおいて,各クライアントがパラメータや後部予測分布(PPD)だけでなく,後部分布を推定する不確実性を伴うフェデレーション学習の枠組みを提案する。
連邦学習における最近のベイズ的アプローチとは異なり、我々のアプローチでは各クライアントからサーバにパラメータの後方分布全体を送信する必要はない。
我々の手法は、クライアントの後部分布の形式やPDの形式など、制限的な仮定を一切行いません。
論文 参考訳(メタデータ) (2022-06-15T14:24:59Z) - Learning Uncertainty For Safety-Oriented Semantic Segmentation In
Autonomous Driving [77.39239190539871]
自律運転における安全クリティカル画像セグメンテーションを実現するために、不確実性推定をどのように活用できるかを示す。
相似性関数によって測定された不一致予測に基づく新しい不確実性尺度を導入する。
本研究では,提案手法が競合手法よりも推論時間において計算集約性が低いことを示す。
論文 参考訳(メタデータ) (2021-05-28T09:23:05Z) - Ensemble Quantile Networks: Uncertainty-Aware Reinforcement Learning
with Applications in Autonomous Driving [1.6758573326215689]
強化学習は、自律運転のための意思決定エージェントを作成するために使用できる。
これまでのアプローチではブラックボックスソリューションのみを提供しており、エージェントがその決定に対する自信について情報を提供していない。
本稿では,分布RLとアンサンブルアプローチを組み合わせて完全不確実性推定を行うEnsemble Quantile Networks (EQN)法を提案する。
論文 参考訳(メタデータ) (2021-05-21T10:36:16Z) - Learning Calibrated Uncertainties for Domain Shift: A Distributionally
Robust Learning Approach [150.8920602230832]
ドメインシフトの下で校正された不確実性を学習するためのフレームワークを提案する。
特に、密度比推定は、ターゲット(テスト)サンプルの近さをソース(トレーニング)分布に反映する。
提案手法は下流タスクに有利な校正不確実性を生成する。
論文 参考訳(メタデータ) (2020-10-08T02:10:54Z) - Tactical Decision-Making in Autonomous Driving by Reinforcement Learning
with Uncertainty Estimation [0.9883261192383611]
強化学習は、自律運転のための戦術的意思決定エージェントを作成するために使用できる。
本稿では,自動走行における意思決定の不確かさを推定するためにベイズRL手法をいかに活用するかを検討する。
論文 参考訳(メタデータ) (2020-04-22T08:22:28Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。