Fugu-MT 論文翻訳(概要): SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning

論文の概要: SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.17460v2
Date: Thu, 06 Feb 2025 18:55:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-07 15:30:40.270373
Title: SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning
Title（参考訳）: SoNIC:適応型コンフォーマル推論と制約付き強化学習による安全なソーシャルナビゲーション
Authors: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li,
Abstract要約: SoNICは適応型共形推論と制約付き強化学習を統合する最初のアルゴリズムである。本手法は,従来の最先端RL法よりも11.67%高い96.93%の成功率を達成する。実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。
参考スコア（独自算出の注目度）: 26.554847852013737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) enables social robots to generate trajectories without relying on human-designed rules or interventions, making it generally more effective than rule-based systems in adapting to complex, dynamic real-world scenarios. However, social navigation is a safety-critical task that requires robots to avoid collisions with pedestrians, whereas existing RL-based solutions often fall short of ensuring safety in complex environments. In this paper, we propose SoNIC, which to the best of our knowledge is the first algorithm that integrates adaptive conformal inference (ACI) with constrained reinforcement learning (CRL) to enable safe policy learning for social navigation. Specifically, our method not only augments RL observations with ACI-generated nonconformity scores, which inform the agent of the quantified uncertainty but also employs these uncertainty estimates to effectively guide the behaviors of RL agents by using constrained reinforcement learning. This integration regulates the behaviors of RL agents and enables them to handle safety-critical situations. On the standard CrowdNav benchmark, our method achieves a success rate of 96.93%, which is 11.67% higher than the previous state-of-the-art RL method and results in 4.5 times fewer collisions and 2.8 times fewer intrusions to ground-truth human future trajectories as well as enhanced robustness in out-of-distribution scenarios. To further validate our approach, we deploy our algorithm on a real robot by developing a ROS2-based navigation system. Our experiments demonstrate that the system can generate robust and socially polite decision-making when interacting with both sparse and dense crowds. The video demos can be found on our project website: https://sonic-social-nav.github.io/.
Abstract（参考訳）: 強化学習(Reinforcement Learning、RL)は、人間によって設計されたルールや介入に頼ることなく、社会ロボットが軌道を生成することを可能にする。しかし、ソーシャルナビゲーションは、歩行者との衝突を避けるためにロボットを必要とする安全上重要なタスクである一方、既存のRLベースのソリューションは、複雑な環境での安全を確保するには不十分であることが多い。本稿では,適応型共形推論(ACI)と制約付き強化学習(CRL)を統合し,ソーシャルナビゲーションのための安全なポリシー学習を可能にするアルゴリズムとして,私たちの知る限り,SoNICを提案する。具体的には,ACIが生成する非整合性スコアを用いてRL観察を増強するだけでなく,これらの不確実性評価を用いて,制約付き強化学習を用いてRLエージェントの挙動を効果的に導出する。この統合は、RLエージェントの挙動を規制し、安全クリティカルな状況に対処することを可能にする。標準的なCrowdNavベンチマークでは、従来の最先端RL法よりも11.67%高い96.93%の成功率を実現し、その結果、衝突が4.5倍減少し、2.8倍の人体将来の軌道への侵入が減少し、また、アウト・オブ・ディストリビューションシナリオにおける堅牢性も向上した。我々のアプローチをさらに検証するために、ROS2ベースのナビゲーションシステムを開発することにより、実際のロボットにアルゴリズムをデプロイする。実験により,疎密な群集と密集した群集の両方と相互作用して,堅牢で社会的に礼儀正しく意思決定できることを示した。ビデオデモはプロジェクトのWebサイト(https://sonic-social-nav.github.io/)で見ることができる。

関連論文リスト

Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling [26.554847852013737]
そこで本研究では,ロボットが分散シフトに頑健な安全なナビゲーションポリシーを学習できることを提案する。本手法は適応型共形推論により生成された予測不確実性推定を用いてエージェント観測を増強する。我々は,本手法を実際のロボットに展開し,疎密な群集と密集した群集との相互作用において,ロボットが安全かつ堅牢な決定を行うことを示す。
論文参考訳（メタデータ） (2025-08-07T17:59:43Z)
Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation [1.74102619371866]
我々は、RL政策が不慣れな状況において追加の注意を維持することを奨励する学習プロセスの変更を提案する。従来のSARLポリシーと比較して、我々の修正されたポリシーは、同様の航法時間と経路長を維持しながら、衝突回数を82%削減する。また、これらの修正を他のRLポリシーに適用する方法を説明し、我々のアプローチのいくつかの重要なハイレベルな振る舞いが物理ロボットに伝達されることを実証する。
論文参考訳（メタデータ） (2024-07-08T15:58:33Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文参考訳（メタデータ） (2023-11-28T19:22:16Z)
Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文参考訳（メタデータ） (2023-06-09T18:45:15Z)
Safe and Sample-efficient Reinforcement Learning for Clustered Dynamic Environments [4.111899441919165]
本研究は,2つの課題に対処する安全かつサンプル効率の強化学習(RL)フレームワークを提案する。我々は、セーフセットアルゴリズム(SSA)を用いて、名目制御の監視と修正を行い、クラスタリングされた動的環境におけるSSA+RLの評価を行う。我々のフレームワークは、トレーニング中の他の安全なRL手法と比較して安全性が向上し、エピソードが大幅に少ないタスクを解決できる。
論文参考訳（メタデータ） (2023-03-24T20:29:17Z)
A Multiplicative Value Function for Safe and Efficient Reinforcement Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文参考訳（メタデータ） (2023-03-07T18:29:15Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Safe Model-Based Reinforcement Learning with an Uncertainty-Aware Reachability Certificate [6.581362609037603]
我々は、DRCとそれに対応するシールドポリシーの制約を解決するために、安全な強化学習フレームワークを構築します。また,シールドポリシを活用しつつ,安全性と高いリターンを同時に達成するためのラインサーチ手法も考案した。
論文参考訳（メタデータ） (2022-10-14T06:16:53Z)
Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文参考訳（メタデータ） (2022-09-29T20:49:25Z)
Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文参考訳（メタデータ） (2022-05-26T17:56:43Z)
Learning Barrier Certificates: Towards Safe Reinforcement Learning with Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文参考訳（メタデータ） (2021-08-04T04:59:05Z)
Minimizing Safety Interference for Safe and Comfortable Automated Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文参考訳（メタデータ） (2021-07-15T13:36:55Z)
Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文参考訳（メタデータ） (2020-10-27T20:53:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。