論文の概要: Identify, Estimate and Bound the Uncertainty of Reinforcement Learning
for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2305.07487v1
- Date: Fri, 12 May 2023 13:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:50:28.320293
- Title: Identify, Estimate and Bound the Uncertainty of Reinforcement Learning
for Autonomous Driving
- Title(参考訳): 自律運転における強化学習の不確かさの特定・推定・検証
- Authors: Weitao Zhou, Zhong Cao, Nanshan Deng, Kun Jiang, Diange Yang
- Abstract要約: 深部強化学習(DRL)は、よりインテリジェントな自動運転車(AV)を開発するための有望なアプローチとして登場した。
本研究は,DRL運転ポリシーの信頼性の低い決定を識別し,保護する手法を提案する。
- 参考スコア(独自算出の注目度): 4.932817328815897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has emerged as a promising approach for
developing more intelligent autonomous vehicles (AVs). A typical DRL
application on AVs is to train a neural network-based driving policy. However,
the black-box nature of neural networks can result in unpredictable decision
failures, making such AVs unreliable. To this end, this work proposes a method
to identify and protect unreliable decisions of a DRL driving policy. The basic
idea is to estimate and constrain the policy's performance uncertainty, which
quantifies potential performance drop due to insufficient training data or
network fitting errors. By constraining the uncertainty, the DRL model's
performance is always greater than that of a baseline policy. The uncertainty
caused by insufficient data is estimated by the bootstrapped method. Then, the
uncertainty caused by the network fitting error is estimated using an ensemble
network. Finally, a baseline policy is added as the performance lower bound to
avoid potential decision failures. The overall framework is called
uncertainty-bound reinforcement learning (UBRL). The proposed UBRL is evaluated
on DRL policies with different amounts of training data, taking an unprotected
left-turn driving case as an example. The result shows that the UBRL method can
identify potentially unreliable decisions of DRL policy. The UBRL guarantees to
outperform baseline policy even when the DRL policy is not well-trained and has
high uncertainty. Meanwhile, the performance of UBRL improves with more
training data. Such a method is valuable for the DRL application on real-road
driving and provides a metric to evaluate a DRL policy.
- Abstract(参考訳): 深層強化学習(DRL)は、よりインテリジェントな自動運転車(AV)を開発するための有望なアプローチとして登場した。
AVs上の典型的なDRLアプリケーションは、ニューラルネットワークベースの運転ポリシーのトレーニングである。
しかし、ニューラルネットワークのブラックボックスの性質は予測不能な決定失敗を生じさせ、そのようなavは信頼できない。
そこで本研究では,DRL運転方針の信頼できない決定を識別し,保護する手法を提案する。
基本的な考え方は、トレーニングデータ不足やネットワーク適合エラーによる潜在的なパフォーマンス低下を定量化するポリシーのパフォーマンスの不確実性を見積もって制約することである。
不確実性を制約することにより、DRLモデルの性能は基準方針よりも常に大きい。
データ不足による不確実性をブートストラップ法により推定する。
そして、アンサンブルネットワークを用いて、ネットワーク嵌合誤差に起因する不確実性を推定する。
最後に、潜在的な決定失敗を避けるために、パフォーマンスの下限としてベースラインポリシーが追加される。
全体的な枠組みは不確実性強化学習(UBRL)と呼ばれる。
提案したUBRLは、異なる量のトレーニングデータを用いてDRLポリシーに基づいて評価され、保護されていない左折駆動ケースを例に挙げる。
その結果、UBRL法はDRLポリシーの潜在的信頼できない決定を特定できることを示した。
UBRLは、DRLポリシーが十分に訓練されておらず、不確実性が高い場合でも、基本方針を上回ることを保証している。
一方、UBRLの性能は、より多くのトレーニングデータによって改善される。
このような方法は、リアルタイム運転におけるDRLアプリケーションに有用であり、DRLポリシーを評価するための指標を提供する。
関連論文リスト
- Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Near Real-World Benchmarks for Offline Reinforcement Learning [26.642722521820467]
本稿では,近世界のベンチマークであるNewRLについて紹介する。
NewRLには、ポリシー検証を目的とした、コントロールされたサイズと追加のテストデータセットを備えた、さまざまなドメインのデータセットが含まれている。
我々は、データセットの報酬の代わりに、ポリシーのパフォーマンスを行動ポリシーの決定論的バージョンと比較するべきだと論じる。
論文 参考訳(メタデータ) (2021-02-01T09:19:10Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Tactical Decision-Making in Autonomous Driving by Reinforcement Learning
with Uncertainty Estimation [0.9883261192383611]
強化学習は、自律運転のための戦術的意思決定エージェントを作成するために使用できる。
本稿では,自動走行における意思決定の不確かさを推定するためにベイズRL手法をいかに活用するかを検討する。
論文 参考訳(メタデータ) (2020-04-22T08:22:28Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。