論文の概要: Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.10655v1
- Date: Mon, 16 Sep 2024 18:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 19:00:49.855426
- Title: Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた安全なソーシャルナビゲーションのための不確かさの解消
- Authors: Daniel Flögel, Marcos Gómez Villafañe, Joshua Ransiek, Sören Hohmann,
- Abstract要約: 本研究は, DRLに基づくナビゲーションフレームワークにアレータリック, エピステミック, 予測不確実性推定を組み込む新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
- 参考スコア(独自算出の注目度): 0.4218593777811082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous mobile robots are increasingly employed in pedestrian-rich environments where safe navigation and appropriate human interaction are crucial. While Deep Reinforcement Learning (DRL) enables socially integrated robot behavior, challenges persist in novel or perturbed scenarios to indicate when and why the policy is uncertain. Unknown uncertainty in decision-making can lead to collisions or human discomfort and is one reason why safe and risk-aware navigation is still an open problem. This work introduces a novel approach that integrates aleatoric, epistemic, and predictive uncertainty estimation into a DRL-based navigation framework for uncertainty estimates in decision-making. We, therefore, incorporate Observation-Dependent Variance (ODV) and dropout into the Proximal Policy Optimization (PPO) algorithm. For different types of perturbations, we compare the ability of Deep Ensembles and Monte-Carlo Dropout (MC-Dropout) to estimate the uncertainties of the policy. In uncertain decision-making situations, we propose to change the robot's social behavior to conservative collision avoidance. The results show that the ODV-PPO algorithm converges faster with better generalization and disentangles the aleatoric and epistemic uncertainties. In addition, the MC-Dropout approach is more sensitive to perturbations and capable to correlate the uncertainty type to the perturbation type better. With the proposed safe action selection scheme, the robot can navigate in perturbed environments with fewer collisions.
- Abstract(参考訳): 自律移動ロボットは、安全なナビゲーションと適切なヒューマンインタラクションが不可欠である歩行者に富む環境にますます採用されている。
深層強化学習(Dreep Reinforcement Learning, DRL)は、社会的に統合されたロボットの動作を可能にするが、新しいシナリオや摂動シナリオでは、その政策がいつ、なぜ不確実であるかを示す課題が持続する。
意思決定における未知の不確実性は、衝突や人間の不快を招きかねず、安全かつリスクを意識したナビゲーションが依然としてオープンな問題である理由の1つである。
本研究は, Aleatoric, epistemic, 予測的不確実性推定をDRLベースのナビゲーションフレームワークに統合し, 意思決定における不確実性推定を実現する手法を提案する。
そこで我々は,観測依存性変動(ODV)とPPOアルゴリズムへのドロップアウトを取り入れた。
様々な種類の摂動について,Deep Ensembles と Monte-Carlo Dropout (MC-Dropout) を比較し,政策の不確実性を推定する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
以上の結果から,ODV-PPOアルゴリズムはより高速に収束し,アレータ性およびてんかん性不確かさを解消することがわかった。
さらに、MC-Dropout法は摂動に敏感であり、不確実性型と摂動型をよりよく相関させることができる。
提案された安全な行動選択スキームにより、ロボットはより少ない衝突で乱れた環境で移動することができる。
関連論文リスト
- Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction [2.2120851074630177]
環境の不確実性は、現実のロボットタスクを実行する際には、長年、扱いにくい特徴だった。
本稿では,動的内部シミュレーションを用いたフォレスト予測を用いた既存の予測学習に基づくロボット制御手法を拡張した。
その結果,提案モデルではドアとの相互作用により動作が適応的に分岐し,従来の手法では安定に分岐しなかった。
論文 参考訳(メタデータ) (2024-10-01T15:13:27Z) - Belief Aided Navigation using Bayesian Reinforcement Learning for Avoiding Humans in Blind Spots [0.0]
本研究では、部分的に観測可能なマルコフ決定プロセスフレームワークに基づく新しいアルゴリズムBNBRL+を導入し、観測不能領域のリスクを評価する。
ロボット、人間、そして推論された信念のダイナミクスを統合し、ナビゲーションパスを決定し、報酬関数に社会規範を埋め込む。
このモデルでは、視認性に限界があり、障害物を動的に回避できるため、自動運転車の安全性と信頼性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-15T08:50:39Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Adaptive Risk Tendency: Nano Drone Navigation in Cluttered Environments
with Distributional Reinforcement Learning [17.940958199767234]
適応型リスク傾向ポリシーを学習するための分散強化学習フレームワークを提案する。
本アルゴリズムは,シミュレーションと実世界の実験の両方において,ハエのリスク感度を調整可能であることを示す。
論文 参考訳(メタデータ) (2022-03-28T13:39:58Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision
Trees [55.9643422180256]
本稿では,ロボットの密集した動的環境における衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。
我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。
シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。
論文 参考訳(メタデータ) (2021-04-22T01:33:10Z) - Addressing Inherent Uncertainty: Risk-Sensitive Behavior Generation for
Automated Driving using Distributional Reinforcement Learning [0.0]
自動運転車におけるリスク感応行動生成のための2段階のアプローチを提案する。
まず, 深層分布強化学習を用いて, 不確実な環境下で最適政策を学習する。
実行中は、確立されたリスク基準を適用して最適なリスク感受性行動を選択する。
論文 参考訳(メタデータ) (2021-02-05T11:45:12Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Online Mapping and Motion Planning under Uncertainty for Safe Navigation
in Unknown Environments [3.2296078260106174]
本論文は,確率論的安全保証者によるオンラインで実現可能な動作のマッピングと計画のための不確実性に基づくフレームワークを提案する。
提案手法は, 環境の不確実性を意識した環境表現を構築するために周囲をマッピングし, (i) 信念空間の多層サンプリングベースプランナーを通して, キノダイナミックに実現可能で確率論的に安全な目標に反復的に(re)計画を行うことにより, 動き, 確率論的安全性, オンライン計算制約を取り扱う。
論文 参考訳(メタデータ) (2020-04-26T08:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。