論文の概要: When to Localize? A Risk-Constrained Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2411.02788v1
- Date: Tue, 05 Nov 2024 03:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:14.724367
- Title: When to Localize? A Risk-Constrained Reinforcement Learning Approach
- Title(参考訳): いつローカライズするか? リスク制約付き強化学習アプローチ
- Authors: Chak Lam Shek, Kasra Torshizi, Troi Williams, Pratap Tokekar,
- Abstract要約: いくつかのシナリオでは、ロボットは観測に費用がかかるときに選択的にローカライズする必要がある。
RiskRLは制約付き強化学習フレームワークで、これらの制限を克服します。
- 参考スコア(独自算出の注目度): 13.853127103435012
- License:
- Abstract: In a standard navigation pipeline, a robot localizes at every time step to lower navigational errors. However, in some scenarios, a robot needs to selectively localize when it is expensive to obtain observations. For example, an underwater robot surfacing to localize too often hinders it from searching for critical items underwater, such as black boxes from crashed aircraft. On the other hand, if the robot never localizes, poor state estimates cause failure to find the items due to inadvertently leaving the search area or entering hazardous, restricted areas. Motivated by these scenarios, we investigate approaches to help a robot determine "when to localize?" We formulate this as a bi-criteria optimization problem: minimize the number of localization actions while ensuring the probability of failure (due to collision or not reaching a desired goal) remains bounded. In recent work, we showed how to formulate this active localization problem as a constrained Partially Observable Markov Decision Process (POMDP), which was solved using an online POMDP solver. However, this approach is too slow and requires full knowledge of the robot transition and observation models. In this paper, we present RiskRL, a constrained Reinforcement Learning (RL) framework that overcomes these limitations. RiskRL uses particle filtering and recurrent Soft Actor-Critic network to learn a policy that minimizes the number of localizations while ensuring the probability of failure constraint is met. Our numerical experiments show that RiskRL learns a robust policy that outperforms the baseline by at least 13% while also generalizing to unseen environments.
- Abstract(参考訳): 標準的なナビゲーションパイプラインでは、ロボットが各ステップをローカライズしてナビゲーションエラーを減らす。
しかし、いくつかのシナリオでは、ロボットは観測に費用がかかるときに選択的に位置決めする必要がある。
例えば、ローカライズに直面する水中ロボットは、墜落した航空機のブラックボックスなど、水中で重要なアイテムを探すのを妨げる。
一方、もしロボットが決して局所化しない場合、不適切な状態が探索エリアから不注意に外れたり、危険で制限された領域に入ったりして、アイテムを見つけるのに失敗する。
これらのシナリオに動機づけられた我々は、ロボットが「ローカライズする時」を決定するためのアプローチを検討する。
局所化動作の回数を最小限に抑えつつ、失敗の確率(衝突によるか、望ましいゴールに到達しないか)を一定に保ちながら、これを双基準最適化問題として定式化する。
近年の研究では、オンラインPOMDPソルバを用いて解いた制約付き部分観測可能マルコフ決定プロセス(POMDP)として、このアクティブなローカライゼーション問題を定式化する方法を示した。
しかし、このアプローチは遅すぎるため、ロボットの遷移と観察モデルに関する完全な知識が必要である。
本稿では,これらの制約を克服する制約付き強化学習(RL)フレームワークであるリスクRLを提案する。
RiskRLは、パーティクルフィルタリングとソフトアクター・クリティカルネットワークを使用して、障害制約の確率を確実にしながら、ローカライズ数を最小化するポリシーを学ぶ。
数値実験により,リスクRLはベースラインを少なくとも13%上回るロバストなポリシーを学習し,また未知の環境にも一般化していることがわかった。
関連論文リスト
- Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning [0.4218593777811082]
本研究は, DRLに基づくナビゲーションフレームワークにアレータリック, エピステミック, 予測不確実性推定を組み込む新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
論文 参考訳(メタデータ) (2024-09-16T18:49:38Z) - LDP: A Local Diffusion Planner for Efficient Robot Navigation and Collision Avoidance [16.81917489473445]
条件拡散モデルは,ロボットポリシーを学習するための効率的なツールとして実証されてきた。
ダイナミックな障害物と迷路のような構造を特徴とする現実シナリオの複雑な性質は、ロボットの局所的なナビゲーション決定の複雑さを浮き彫りにする。
論文 参考訳(メタデータ) (2024-07-02T04:53:35Z) - Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。
簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文 参考訳(メタデータ) (2023-11-16T11:02:29Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Generalization in Deep Reinforcement Learning for Robotic Navigation by
Reward Shaping [0.1588748438612071]
ローカルナビゲーション問題におけるDRLアルゴリズムの適用について検討する。
DRLに基づく衝突回避ポリシーにはいくつかの利点があるが、それらは局所的なミニマの影響を受けやすい。
本稿では,学習段階において得られた地図情報を取り入れた新たな報酬関数を提案する。
論文 参考訳(メタデータ) (2022-09-28T17:34:48Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Learning Risk-aware Costmaps for Traversability in Challenging
Environments [16.88528967313285]
トラバーサビリティコストの分散を頑健に学習するためのニューラルネットワークアーキテクチャを導入する。
ロボットの生命維持をモチベーションとするので,テールリスクの学習の観点から,この学習課題に取り組む。
提案手法は,0から1の間で所望の確率リスク閾値が与えられた場合,期待されるテールリスクを確実に学習することを示す。
論文 参考訳(メタデータ) (2021-07-25T04:12:03Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。