論文の概要: Improving Automated Driving through POMDP Planning with Human Internal
States
- arxiv url: http://arxiv.org/abs/2005.14549v2
- Date: Thu, 9 Jun 2022 23:00:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 05:36:37.222065
- Title: Improving Automated Driving through POMDP Planning with Human Internal
States
- Title(参考訳): 内部状態を考慮したPMDP計画による自動運転の改善
- Authors: Zachary Sunberg and Mykel Kochenderfer
- Abstract要約: 本研究は, 自律高速道路運転における安全と効率の両面において, 部分的に観測可能なマルコフ決定プロセス (POMDP) が著しく改善できるという仮説を検証した。
この仮説を,自動運転車が高速連続で3車線変更を安全に行わなければならないシミュレーションシナリオで評価する。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work examines the hypothesis that partially observable Markov decision
process (POMDP) planning with human driver internal states can significantly
improve both safety and efficiency in autonomous freeway driving. We evaluate
this hypothesis in a simulated scenario where an autonomous car must safely
perform three lane changes in rapid succession. Approximate POMDP solutions are
obtained through the partially observable Monte Carlo planning with observation
widening (POMCPOW) algorithm. This approach outperforms over-confident and
conservative MDP baselines and matches or outperforms QMDP. Relative to the MDP
baselines, POMCPOW typically cuts the rate of unsafe situations in half or
increases the success rate by 50%.
- Abstract(参考訳): 本研究は,人間運転者の内部状態を考慮した部分的可観測マルコフ決定プロセス(pomdp)計画が,自動運転運転の安全性と効率を著しく向上できるという仮説を考察する。
この仮説を,自動運転車が高速連続で3車線変更を安全に行わなければならないシミュレーションシナリオで評価する。
近似PMDPソリューションは、部分的に観測可能なモンテカルロ計画(POMCPOW)アルゴリズムを用いて得られる。
このアプローチは、自信過剰で保守的なMDPベースラインを上回り、マッチやQMDPを上回ります。
MDPベースラインとは対照的に、POMCPOWは通常、安全でない状況を半分に削減するか、成功率を50%向上させる。
関連論文リスト
- Enhancing Safety in Mixed Traffic: Learning-Based Modeling and Efficient Control of Autonomous and Human-Driven Vehicles [9.535070108266241]
本稿では,HV(Human-driven Vehicle)のモデリング手法を提案する。
第一原理モデルとガウス過程(GP)学習を組み合わせて、速度予測の精度を高め、測定可能な不確実性を提供する。
GP-MPC(GP-enhanced model predictive Control)戦略を開発し、混合車両プラトンにおける安全性を向上させる。
論文 参考訳(メタデータ) (2024-04-10T04:36:24Z) - Predictive Maneuver Planning with Deep Reinforcement Learning (PMP-DRL)
for comfortable and safe autonomous driving [7.3045725197814875]
本稿では,演習計画のためのPMP-DRLモデルを提案する。
その経験から学ぶことで、強化学習(RL)ベースの運転エージェントは、変化する運転条件に適応することができる。
その結果、PMP-DRLは複雑な現実世界のシナリオを処理でき、ルールベースや模倣の模倣よりも快適で安全な操作判断ができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T11:27:30Z) - iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed
Multi-Agent Reinforcement Learning [57.24340061741223]
本稿では,高密度および不均一な交通シナリオにおける軌跡や意図を予測できる分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。
インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。
論文 参考訳(メタデータ) (2023-06-09T20:12:02Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic
Junction Driving [20.85562165500152]
道路交通ジャンクションのシナリオでは、車両は通常、輸送環境から部分的な観察を受ける。
本研究では,3つのベースラインDRLモデル(DQN,A2C,PPO)の安全性評価を行った。
提案した自己認識注意-DQNは,交差点およびラウンドアバウンドシナリオにおける安全性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-01-20T11:21:33Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Efficient Sampling in POMDPs with Lipschitz Bandits for Motion Planning
in Continuous Spaces [5.732271870257913]
不確実性のある意思決定は、部分的に観測可能なマルコフ決定過程(POMDP)とみなすことができる。
POMDPの正確な解を見つけることは一般に難解であるが、この解はサンプリングベースのアプローチによって近似することができる。
自動走行における動作計画の文脈におけるこのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-06-08T09:31:48Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。