論文の概要: SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.17460v1
- Date: Wed, 24 Jul 2024 17:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:05:35.473325
- Title: SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning
- Title(参考訳): SoNIC:適応型コンフォーマル推論と制約付き強化学習による安全なソーシャルナビゲーション
- Authors: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、人間によって設計されたルールや介入なしに、社会ロボットが軌道を生成できるようにする。
本稿では,適応整合性推論(ACI)と制約強化学習(CRL)を統合し,ソーシャルナビゲーションのための安全なポリシーを学習する最初のアルゴリズムであるSoNICを提案する。
本手法は,社会規範の安全性と順守の両面において,最先端のベースラインを大きなマージンで上回り,アウト・オブ・ディストリビューションシナリオに対する強い堅牢性を示す。
- 参考スコア(独自算出の注目度): 26.554847852013737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has enabled social robots to generate trajectories without human-designed rules or interventions, which makes it more effective than hard-coded systems for generalizing to complex real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians while previous RL-based solutions fall short in safety performance in complex environments. To enhance the safety of RL policies, to the best of our knowledge, we propose the first algorithm, SoNIC, that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to learn safe policies for social navigation. More specifically, our method augments RL observations with ACI-generated nonconformity scores and provides explicit guidance for agents to leverage the uncertainty metrics to avoid safety-critical areas by incorporating safety constraints with spatial relaxation. Our method outperforms state-of-the-art baselines in terms of both safety and adherence to social norms by a large margin and demonstrates much stronger robustness to out-of-distribution scenarios. Our code and video demos are available on our project website: https://sonic-social-nav.github.io/.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、人間によって設計されたルールや介入なしに、社会ロボットが軌道を生成できるようにし、複雑な現実世界のシナリオに一般化するためのハードコードシステムよりも効果的である。
しかし、ソーシャルナビゲーションは、ロボットが歩行者との衝突を避けることを要求する安全クリティカルなタスクであり、従来のRLベースのソリューションは複雑な環境での安全性能が不足している。
本稿では,RLポリシーの安全性を高めるために,適応型共形推論(ACI)と制約付き強化学習(CRL)を統合し,ソーシャルナビゲーションのための安全なポリシーを学習する最初のアルゴリズムであるSoNICを提案する。
より具体的には、ACI生成した非整合性スコアを用いてRL観測を増強し、空間緩和による安全制約を組み込むことで、安全クリティカルな領域を避けるために、エージェントが不確実性指標を活用するための明確なガイダンスを提供する。
本手法は,社会規範の安全性と順守の両面において,最先端のベースラインを大きなマージンで上回り,アウト・オブ・ディストリビューションシナリオに対する強い堅牢性を示す。
私たちのコードとビデオのデモは、プロジェクトのWebサイト(https://sonic-social-nav.github.io/)で公開されています。
関連論文リスト
- Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic
Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。
我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。
我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文 参考訳(メタデータ) (2023-03-24T20:29:17Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Model-Based Reinforcement Learning with an Uncertainty-Aware
Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。
また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文 参考訳(メタデータ) (2022-10-14T06:16:53Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。