論文の概要: Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation
- arxiv url: http://arxiv.org/abs/2407.06056v1
- Date: Mon, 8 Jul 2024 15:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:01:13.006302
- Title: Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation
- Title(参考訳): RL型社会ロボットナビゲーションにおける予測不可能な歩行者の識別と回避
- Authors: Sara Pohland, Alvin Tan, Prabal Dutta, Claire Tomlin,
- Abstract要約: 我々は、RL政策が不慣れな状況において追加の注意を維持することを奨励する学習プロセスの変更を提案する。
従来のSARLポリシーと比較して、我々の修正されたポリシーは、同様の航法時間と経路長を維持しながら、衝突回数を82%削減する。
また、これらの修正を他のRLポリシーに適用する方法を説明し、我々のアプローチのいくつかの重要なハイレベルな振る舞いが物理ロボットに伝達されることを実証する。
- 参考スコア(独自算出の注目度): 1.74102619371866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) methods for social robot navigation show great success navigating robots through large crowds of people, but the performance of these learning-based methods tends to degrade in particularly challenging or unfamiliar situations due to the models' dependency on representative training data. To ensure human safety and comfort, it is critical that these algorithms handle uncommon cases appropriately, but the low frequency and wide diversity of such situations present a significant challenge for these data-driven methods. To overcome this challenge, we propose modifications to the learning process that encourage these RL policies to maintain additional caution in unfamiliar situations. Specifically, we improve the Socially Attentive Reinforcement Learning (SARL) policy by (1) modifying the training process to systematically introduce deviations into a pedestrian model, (2) updating the value network to estimate and utilize pedestrian-unpredictability features, and (3) implementing a reward function to learn an effective response to pedestrian unpredictability. Compared to the original SARL policy, our modified policy maintains similar navigation times and path lengths, while reducing the number of collisions by 82% and reducing the proportion of time spent in the pedestrians' personal space by up to 19 percentage points for the most difficult cases. We also describe how to apply these modifications to other RL policies and demonstrate that some key high-level behaviors of our approach transfer to a physical robot.
- Abstract(参考訳): 社会ロボットナビゲーションのための強化学習(RL)手法は、大勢の人を通してロボットをナビゲートすることに成功したが、これらの学習に基づく手法の性能は、モデルが代表的トレーニングデータに依存しているため、特に困難または不慣れな状況で低下する傾向にある。
安全性と快適性を確保するためには、これらのアルゴリズムが不定期なケースを適切に扱うことが重要であるが、そのような状況の低頻度と幅広い多様性は、これらのデータ駆動手法にとって大きな課題である。
この課題を克服するために、我々はこれらのRLポリシーを不慣れな状況において追加の注意を維持できるよう促す学習プロセスの変更を提案する。
具体的には,(1)歩行者モデルに偏差を体系的に導入するためのトレーニングプロセスを変更すること,(2)歩行者予測不可能性の特徴を推定・活用するための価値ネットワークを更新すること,(3)歩行者予測不可能性に対する効果的な応答を学習するための報酬関数を実装することにより,社会的注意強化学習(SARL)政策を改善した。
従来のSARLポリシーと比較して、我々の修正されたポリシーは、同様の航法時間と経路長を維持しつつ、衝突回数を82%削減し、最も困難なケースでは歩行者の個人空間で費やした時間の割合を19パーセント削減する。
また、これらの修正を他のRLポリシーに適用する方法を説明し、我々のアプローチのいくつかの重要なハイレベルな振る舞いが物理ロボットに伝達されることを実証する。
関連論文リスト
- SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning [26.554847852013737]
強化学習(Reinforcement Learning, RL)は、人間によって設計されたルールや介入なしに、社会ロボットが軌道を生成できるようにする。
本稿では,適応整合性推論(ACI)と制約強化学習(CRL)を統合し,ソーシャルナビゲーションのための安全なポリシーを学習する最初のアルゴリズムであるSoNICを提案する。
本手法は,社会規範の安全性と順守の両面において,最先端のベースラインを大きなマージンで上回り,アウト・オブ・ディストリビューションシナリオに対する強い堅牢性を示す。
論文 参考訳(メタデータ) (2024-07-24T17:57:21Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Deep Reinforcement Learning-Based Mapless Crowd Navigation with
Perceived Risk of the Moving Crowd for Mobile Robots [0.0]
現在最先端のクラウドナビゲーションアプローチは、主に深層強化学習(DRL)に基づくものである。
本研究では,観測空間に衝突確率(CP)を組み込んで,移動する群衆の危険度をロボットに知覚する手法を提案する。
論文 参考訳(メタデータ) (2023-04-07T11:29:59Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Relative velocity-based reward functions for crowd navigation of robots [7.671375709255977]
モバイルロボットの開発において,社会的に許容される基準でクラウド環境をナビゲートする方法は,依然として重要な課題である。
近年の研究では,歩行者の移動速度が向上するにつれて,群集ナビゲーションにおける深層強化学習の有効性が示されているが,学習効果は徐々に低下している。
深い強化学習の有効性を向上させるため,報酬関数に相対速度のペナルティ項を導入することで報酬関数を再設計した。
論文 参考訳(メタデータ) (2021-12-28T03:49:01Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。