論文の概要: SocNavGym: A Reinforcement Learning Gym for Social Navigation
- arxiv url: http://arxiv.org/abs/2304.14102v2
- Date: Fri, 7 Jul 2023 04:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:24:42.014593
- Title: SocNavGym: A Reinforcement Learning Gym for Social Navigation
- Title(参考訳): SocNavGym:ソーシャルナビゲーションのための強化学習ジム
- Authors: Aditya Kapoor, Sushant Swamy, Luis Manso and Pilar Bachiller
- Abstract要約: SocNavGymは、ソーシャルナビゲーションのための高度なシミュレーション環境である。
さまざまなタイプのソーシャルナビゲーションシナリオを生成することができる。
また、さまざまな手作りとデータ駆動のソーシャル報酬信号を扱うように設定することもできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is essential for autonomous robots to be socially compliant while
navigating in human-populated environments. Machine Learning and, especially,
Deep Reinforcement Learning have recently gained considerable traction in the
field of Social Navigation. This can be partially attributed to the resulting
policies not being bound by human limitations in terms of code complexity or
the number of variables that are handled. Unfortunately, the lack of safety
guarantees and the large data requirements by DRL algorithms make learning in
the real world unfeasible. To bridge this gap, simulation environments are
frequently used. We propose SocNavGym, an advanced simulation environment for
social navigation that can generate a wide variety of social navigation
scenarios and facilitates the development of intelligent social agents.
SocNavGym is light-weight, fast, easy-to-use, and can be effortlessly
configured to generate different types of social navigation scenarios. It can
also be configured to work with different hand-crafted and data-driven social
reward signals and to yield a variety of evaluation metrics to benchmark
agents' performance. Further, we also provide a case study where a Dueling-DQN
agent is trained to learn social-navigation policies using SocNavGym. The
results provides evidence that SocNavGym can be used to train an agent from
scratch to navigate in simple as well as complex social scenarios. Our
experiments also show that the agents trained using the data-driven reward
function displays more advanced social compliance in comparison to the
heuristic-based reward function.
- Abstract(参考訳): 自律ロボットは、人口の多い環境で移動しながら社会に適応することが不可欠である。
機械学習、特にDeep Reinforcement Learningは、最近、ソーシャルナビゲーションの分野で大きな注目を集めている。
これは部分的には、コードの複雑さや処理される変数の数という観点で、人間の制限に縛られないポリシーに起因する可能性がある。
残念ながら、安全保証の欠如とDRLアルゴリズムによる大量のデータ要求により、現実世界での学習は不可能である。
このギャップを埋めるために、シミュレーション環境が頻繁に使用される。
ソーシャルナビゲーションのための高度なシミュレーション環境であるSocNavGymを提案し、多様なソーシャルナビゲーションシナリオを生成し、インテリジェントなソーシャルエージェントの開発を容易にする。
SocNavGymは軽量で、高速で使いやすく、さまざまなタイプのソーシャルナビゲーションシナリオを生成するために努力的に設定できる。
また、さまざまな手作りおよびデータ駆動型社会報酬信号と連携し、ベンチマークエージェントのパフォーマンスに様々な評価指標を与えるように設定することもできる。
また,SocNavGymを用いてDueling-DQNエージェントを用いてソーシャルナビゲーションポリシーを学習するケーススタディも提供する。
結果は、SocNavGymがエージェントをスクラッチからトレーニングして、シンプルで複雑な社会的シナリオでナビゲートできることを示す。
また,データ駆動型報酬関数を用いて訓練したエージェントは,ヒューリスティック型報酬関数と比較して,より高度な社会コンプライアンスを示すことを示した。
関連論文リスト
- Principles and Guidelines for Evaluating Social Robot Navigation
Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。
コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文 参考訳(メタデータ) (2023-06-29T07:31:43Z) - Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for
Robotic Navigation [75.36145696421038]
Ada-NAVは、ロボットナビゲーションタスクにおける強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された新しい適応軌道長スキームである。
我々は、Ada-NAVが一定またはランダムにサンプリングされた軌道長を用いる従来の手法よりも優れているというシミュレーションと実世界のロボット実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - SOCIALGYM 2.0: Simulator for Multi-Agent Social Robot Navigation in
Shared Human Spaces [13.116180950665962]
SocialGym 2はソーシャルロボットのためのマルチエージェントナビゲーションシミュレータである。
ドアウェイ、廊下、交差点、ラウンドアバウトなど、複雑な環境で現実世界のダイナミクスを再現する。
SocialGym 2は、ROSメッセージングを通じてナビゲーションスタックと統合されたアクセス可能なpythonインターフェースを提供する。
論文 参考訳(メタデータ) (2023-03-09T21:21:05Z) - Exploiting Socially-Aware Tasks for Embodied Social Navigation [17.48110264302196]
本稿では,ソーシャル・アウェア・タスクを活用して,強化学習ナビゲーションポリシーに注入するエンド・ツー・エンドアーキテクチャを提案する。
この目的のために、我々のタスクは衝突の即時および将来の危険という概念を利用する。
Gibson4+およびHabitat-Matterport3Dデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-01T18:52:46Z) - SoLo T-DIRL: Socially-Aware Dynamic Local Planner based on
Trajectory-Ranked Deep Inverse Reinforcement Learning [4.008601554204486]
本研究は,最近提案されたT-MEDIRL(T-MEDIRL)に基づく,混在環境における動的局所プランナのための新しい枠組みを提案する。
ソーシャルナビゲーション問題に対処するため,我々のマルチモーダル学習プランナーは,T-MEDIRLパイプラインにおける社会的相互作用の要因だけでなく,社会的相互作用の要因も考慮し,人間の実演から報酬関数を学習する。
評価の結果,ロボットが混み合った社会環境をナビゲートし,その成功率やナビゲーションの点で最先端の社会ナビゲーション手法より優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-16T15:13:33Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。