論文の概要: GSON: A Group-based Social Navigation Framework with Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2409.18084v1
- Date: Thu, 26 Sep 2024 17:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 21:38:28.236762
- Title: GSON: A Group-based Social Navigation Framework with Large Multimodal Model
- Title(参考訳): GSON:大規模マルチモーダルモデルを用いたグループ型ソーシャルナビゲーションフレームワーク
- Authors: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang,
- Abstract要約: 移動ロボットが周囲の社会集団を知覚し利用できるようにするためのグループベースのソーシャルナビゲーションフレームワークGSONを提案する。
認識のために、歩行者間の社会的関係をゼロショットで抽出する視覚的プロンプト技術を適用した。
計画には,グローバルパス計画とローカルモーションプランニングの橋渡しとして,社会構造に基づく中間プランナを採用する。
- 参考スコア(独自算出の注目度): 9.94576166903495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the number of service robots and autonomous vehicles in human-centered environments grows, their requirements go beyond simply navigating to a destination. They must also take into account dynamic social contexts and ensure respect and comfort for others in shared spaces, which poses significant challenges for perception and planning. In this paper, we present a group-based social navigation framework GSON to enable mobile robots to perceive and exploit the social group of their surroundings by leveling the visual reasoning capability of the Large Multimodal Model (LMM). For perception, we apply visual prompting techniques to zero-shot extract the social relationship among pedestrians and combine the result with a robust pedestrian detection and tracking pipeline to alleviate the problem of low inference speed of the LMM. Given the perception result, the planning system is designed to avoid disrupting the current social structure. We adopt a social structure-based mid-level planner as a bridge between global path planning and local motion planning to preserve the global context and reactive response. The proposed method is validated on real-world mobile robot navigation tasks involving complex social structure understanding and reasoning. Experimental results demonstrate the effectiveness of the system in these scenarios compared with several baselines.
- Abstract(参考訳): 人間中心の環境におけるサービスロボットや自動運転車の数が増えるにつれ、その要件は単なる目的地への移動以上のものとなる。
また、動的な社会的文脈を考慮に入れ、共有空間における他人への尊敬と慰めを確実にし、認識と計画に重大な課題をもたらす必要がある。
本稿では,LMM(Large Multimodal Model)の視覚的推論能力を評価することで,移動ロボットが周囲の社会的グループを知覚し,活用するためのグループベースのソーシャルナビゲーションフレームワークGSONを提案する。
認識のために、歩行者間の社会的関係をゼロショットで抽出する視覚的プロンプト技術を適用し、その結果を頑健な歩行者検出・追跡パイプラインと組み合わせることで、LMMの低推論速度の問題を軽減する。
認識結果から、現在の社会構造を混乱させないよう設計されている。
我々は,グローバルパス計画とローカルモーションプランニングの橋渡しとして,社会構造に基づく中間レベルプランナを採用し,グローバルコンテキストと応答性を維持する。
複雑な社会構造理解と推論を含む実世界の移動ロボットナビゲーションタスクに対して,提案手法の有効性を検証した。
実験により,これらのシナリオにおけるシステムの有効性を,いくつかのベースラインと比較した。
関連論文リスト
- HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments [8.974071308749007]
廊下や家具などの環境制約のある密集した対話型群集におけるロボットナビゲーションの問題点について検討する。
従来の手法ではエージェントと障害物間のあらゆる種類の相互作用を考慮できないため、安全で非効率なロボット経路につながる。
本稿では,ロボットナビゲーションポリシーを強化学習で学習するための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T00:56:35Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - A Study on Learning Social Robot Navigation with Multimodal Perception [6.052803245103173]
本稿では,大規模実世界のデータセットを用いたマルチモーダル認識を用いた社会ロボットナビゲーションの学習について述べる。
我々は,一助学習と多モーダル学習のアプローチを,異なる社会シナリオにおける古典的なナビゲーション手法のセットと比較する。
その結果、マルチモーダル学習は、データセットと人的学習の両方において、一助学習よりも明らかな優位性を持つことが示された。
論文 参考訳(メタデータ) (2023-09-22T01:47:47Z) - Multi-robot Social-aware Cooperative Planning in Pedestrian Environments
Using Multi-agent Reinforcement Learning [2.7716102039510564]
我々は、非政治的マルチエージェント強化学習(MARL)に基づく、新しいマルチロボット・ソーシャル・アウェア・効率的な協調プランナーを提案する。
我々は、時間空間グラフ(TSG)に基づくソーシャルエンコーダを採用し、その視野における各ロボットと歩行者の社会的関係の重要性をよりよく抽出する。
論文 参考訳(メタデータ) (2022-11-29T03:38:47Z) - SoLo T-DIRL: Socially-Aware Dynamic Local Planner based on
Trajectory-Ranked Deep Inverse Reinforcement Learning [4.008601554204486]
本研究は,最近提案されたT-MEDIRL(T-MEDIRL)に基づく,混在環境における動的局所プランナのための新しい枠組みを提案する。
ソーシャルナビゲーション問題に対処するため,我々のマルチモーダル学習プランナーは,T-MEDIRLパイプラインにおける社会的相互作用の要因だけでなく,社会的相互作用の要因も考慮し,人間の実演から報酬関数を学習する。
評価の結果,ロボットが混み合った社会環境をナビゲートし,その成功率やナビゲーションの点で最先端の社会ナビゲーション手法より優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-16T15:13:33Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。