論文の概要: GSON: A Group-based Social Navigation Framework with Large Multimodal Model
- arxiv url: http://arxiv.org/abs/2409.18084v2
- Date: Tue, 08 Apr 2025 06:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:26:01.853565
- Title: GSON: A Group-based Social Navigation Framework with Large Multimodal Model
- Title(参考訳): GSON:大規模マルチモーダルモデルを用いたグループ型ソーシャルナビゲーションフレームワーク
- Authors: Shangyi Luo, Ji Zhu, Peng Sun, Yuhong Deng, Cunjun Yu, Anxing Xiao, Xueqian Wang,
- Abstract要約: 本稿では,新しいグループベースのソーシャルナビゲーションフレームワークであるGSONを紹介する。
GSONは視覚的プロンプトを使用して、歩行者間の社会的関係のゼロショット抽出を可能にする。
我々は、大規模な実世界の移動ロボットナビゲーション実験を通じてGSONを検証する。
- 参考スコア(独自算出の注目度): 9.94576166903495
- License:
- Abstract: With the increasing presence of service robots and autonomous vehicles in human environments, navigation systems need to evolve beyond simple destination reach to incorporate social awareness. This paper introduces GSON, a novel group-based social navigation framework that leverages Large Multimodal Models (LMMs) to enhance robots' social perception capabilities. Our approach uses visual prompting to enable zero-shot extraction of social relationships among pedestrians and integrates these results with robust pedestrian detection and tracking pipelines to overcome the inherent inference speed limitations of LMMs. The planning system incorporates a mid-level planner that sits between global path planning and local motion planning, effectively preserving both global context and reactive responsiveness while avoiding disruption of the predicted social group. We validate GSON through extensive real-world mobile robot navigation experiments involving complex social scenarios such as queuing, conversations, and photo sessions. Comparative results show that our system significantly outperforms existing navigation approaches in minimizing social perturbations while maintaining comparable performance on traditional navigation metrics.
- Abstract(参考訳): 人体環境におけるサービスロボットや自動運転車の存在が増大するにつれ、ナビゲーションシステムは単なる目的地を超えて進化し、社会意識を組み込む必要がある。
本稿では,LMM(Large Multimodal Models)を活用し,ロボットの社会認識能力を高める新しいグループベースのソーシャルナビゲーションフレームワークであるGSONを紹介する。
提案手法は,歩行者間の社会的関係のゼロショット抽出を可能にするために視覚的プロンプトを用いており,これらの結果を頑健な歩行者検出と追跡パイプラインと統合することにより,LMMの固有の推論速度制限を克服する。
計画システムは、グローバルパス計画とローカルモーション計画の間に位置する中間レベルプランナーを組み、予測された社会集団の混乱を避けながら、グローバルコンテキストと反応性の両方を効果的に保存する。
我々は、待ち行列、会話、写真セッションなどの複雑な社会的シナリオを含む、大規模な実世界の移動ロボットナビゲーション実験を通じてGSONを検証する。
その結果,従来のナビゲーション指標に匹敵する性能を維持しつつ,社会的摂動を最小限に抑えるため,既存のナビゲーション手法よりも優れていることがわかった。
関連論文リスト
- HEIGHT: Heterogeneous Interaction Graph Transformer for Robot Navigation in Crowded and Constrained Environments [8.974071308749007]
廊下や家具などの環境制約のある密集した対話型群集におけるロボットナビゲーションの問題点について検討する。
従来の手法ではエージェントと障害物間のあらゆる種類の相互作用を考慮できないため、安全で非効率なロボット経路につながる。
本稿では,ロボットナビゲーションポリシーを強化学習で学習するための構造化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-19T00:56:35Z) - A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。
本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。
移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文 参考訳(メタデータ) (2024-08-11T14:57:57Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - A Study on Learning Social Robot Navigation with Multimodal Perception [6.052803245103173]
本稿では,大規模実世界のデータセットを用いたマルチモーダル認識を用いた社会ロボットナビゲーションの学習について述べる。
我々は,一助学習と多モーダル学習のアプローチを,異なる社会シナリオにおける古典的なナビゲーション手法のセットと比較する。
その結果、マルチモーダル学習は、データセットと人的学習の両方において、一助学習よりも明らかな優位性を持つことが示された。
論文 参考訳(メタデータ) (2023-09-22T01:47:47Z) - Multi-robot Social-aware Cooperative Planning in Pedestrian Environments
Using Multi-agent Reinforcement Learning [2.7716102039510564]
我々は、非政治的マルチエージェント強化学習(MARL)に基づく、新しいマルチロボット・ソーシャル・アウェア・効率的な協調プランナーを提案する。
我々は、時間空間グラフ(TSG)に基づくソーシャルエンコーダを採用し、その視野における各ロボットと歩行者の社会的関係の重要性をよりよく抽出する。
論文 参考訳(メタデータ) (2022-11-29T03:38:47Z) - SoLo T-DIRL: Socially-Aware Dynamic Local Planner based on
Trajectory-Ranked Deep Inverse Reinforcement Learning [4.008601554204486]
本研究は,最近提案されたT-MEDIRL(T-MEDIRL)に基づく,混在環境における動的局所プランナのための新しい枠組みを提案する。
ソーシャルナビゲーション問題に対処するため,我々のマルチモーダル学習プランナーは,T-MEDIRLパイプラインにおける社会的相互作用の要因だけでなく,社会的相互作用の要因も考慮し,人間の実演から報酬関数を学習する。
評価の結果,ロボットが混み合った社会環境をナビゲートし,その成功率やナビゲーションの点で最先端の社会ナビゲーション手法より優れていることがわかった。
論文 参考訳(メタデータ) (2022-09-16T15:13:33Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z) - Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。
このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。
我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文 参考訳(メタデータ) (2021-03-31T00:05:54Z) - PHASE: PHysically-grounded Abstract Social Events for Machine Social
Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。
フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。
ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文 参考訳(メタデータ) (2021-03-02T18:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。