論文の概要: SocNavGym: A Reinforcement Learning Gym for Social Navigation
- arxiv url: http://arxiv.org/abs/2304.14102v2
- Date: Fri, 7 Jul 2023 04:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:24:42.014593
- Title: SocNavGym: A Reinforcement Learning Gym for Social Navigation
- Title(参考訳): SocNavGym:ソーシャルナビゲーションのための強化学習ジム
- Authors: Aditya Kapoor, Sushant Swamy, Luis Manso and Pilar Bachiller
- Abstract要約: SocNavGymは、ソーシャルナビゲーションのための高度なシミュレーション環境である。
さまざまなタイプのソーシャルナビゲーションシナリオを生成することができる。
また、さまざまな手作りとデータ駆動のソーシャル報酬信号を扱うように設定することもできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is essential for autonomous robots to be socially compliant while
navigating in human-populated environments. Machine Learning and, especially,
Deep Reinforcement Learning have recently gained considerable traction in the
field of Social Navigation. This can be partially attributed to the resulting
policies not being bound by human limitations in terms of code complexity or
the number of variables that are handled. Unfortunately, the lack of safety
guarantees and the large data requirements by DRL algorithms make learning in
the real world unfeasible. To bridge this gap, simulation environments are
frequently used. We propose SocNavGym, an advanced simulation environment for
social navigation that can generate a wide variety of social navigation
scenarios and facilitates the development of intelligent social agents.
SocNavGym is light-weight, fast, easy-to-use, and can be effortlessly
configured to generate different types of social navigation scenarios. It can
also be configured to work with different hand-crafted and data-driven social
reward signals and to yield a variety of evaluation metrics to benchmark
agents' performance. Further, we also provide a case study where a Dueling-DQN
agent is trained to learn social-navigation policies using SocNavGym. The
results provides evidence that SocNavGym can be used to train an agent from
scratch to navigate in simple as well as complex social scenarios. Our
experiments also show that the agents trained using the data-driven reward
function displays more advanced social compliance in comparison to the
heuristic-based reward function.
- Abstract(参考訳): 自律ロボットは、人口の多い環境で移動しながら社会に適応することが不可欠である。
機械学習、特にDeep Reinforcement Learningは、最近、ソーシャルナビゲーションの分野で大きな注目を集めている。
これは部分的には、コードの複雑さや処理される変数の数という観点で、人間の制限に縛られないポリシーに起因する可能性がある。
残念ながら、安全保証の欠如とDRLアルゴリズムによる大量のデータ要求により、現実世界での学習は不可能である。
このギャップを埋めるために、シミュレーション環境が頻繁に使用される。
ソーシャルナビゲーションのための高度なシミュレーション環境であるSocNavGymを提案し、多様なソーシャルナビゲーションシナリオを生成し、インテリジェントなソーシャルエージェントの開発を容易にする。
SocNavGymは軽量で、高速で使いやすく、さまざまなタイプのソーシャルナビゲーションシナリオを生成するために努力的に設定できる。
また、さまざまな手作りおよびデータ駆動型社会報酬信号と連携し、ベンチマークエージェントのパフォーマンスに様々な評価指標を与えるように設定することもできる。
また,SocNavGymを用いてDueling-DQNエージェントを用いてソーシャルナビゲーションポリシーを学習するケーススタディも提供する。
結果は、SocNavGymがエージェントをスクラッチからトレーニングして、シンプルで複雑な社会的シナリオでナビゲートできることを示す。
また,データ駆動型報酬関数を用いて訓練したエージェントは,ヒューリスティック型報酬関数と比較して,より高度な社会コンプライアンスを示すことを示した。
関連論文リスト
- Online Context Learning for Socially-compliant Navigation [49.609656402450746]
本文では,ロボットが新たな社会環境に適応できるようにするための,オンラインコンテキスト学習手法を紹介する。
コミュニティワイドシミュレータを用いた実験により,本手法は最先端のシミュレータよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T12:59:13Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Principles and Guidelines for Evaluating Social Robot Navigation
Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。
コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文 参考訳(メタデータ) (2023-06-29T07:31:43Z) - SOCIALGYM 2.0: Simulator for Multi-Agent Social Robot Navigation in
Shared Human Spaces [13.116180950665962]
SocialGym 2はソーシャルロボットのためのマルチエージェントナビゲーションシミュレータである。
ドアウェイ、廊下、交差点、ラウンドアバウトなど、複雑な環境で現実世界のダイナミクスを再現する。
SocialGym 2は、ROSメッセージングを通じてナビゲーションスタックと統合されたアクセス可能なpythonインターフェースを提供する。
論文 参考訳(メタデータ) (2023-03-09T21:21:05Z) - Exploiting Socially-Aware Tasks for Embodied Social Navigation [17.48110264302196]
本稿では,ソーシャル・アウェア・タスクを活用して,強化学習ナビゲーションポリシーに注入するエンド・ツー・エンドアーキテクチャを提案する。
この目的のために、我々のタスクは衝突の即時および将来の危険という概念を利用する。
Gibson4+およびHabitat-Matterport3Dデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-01T18:52:46Z) - SoLo T-DIRL: Socially-Aware Dynamic Local Planner based on
Trajectory-Ranked Deep Inverse Reinforcement Learning [4.008601554204486]
本研究は,最近提案されたT-MEDIRL(T-MEDIRL)に基づく,混在環境における動的局所プランナのための新しい枠組みを提案する。
ソーシャルナビゲーション問題に対処するため,我々のマルチモーダル学習プランナーは,T-MEDIRLパイプラインにおける社会的相互作用の要因だけでなく,社会的相互作用の要因も考慮し,人間の実演から報酬関数を学習する。
評価の結果,ロボットが混み合った社会環境をナビゲートし,その成功率やナビゲーションの点で最先端の社会ナビゲーション手法より優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-16T15:13:33Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。