論文の概要: SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation
- arxiv url: http://arxiv.org/abs/2509.08757v1
- Date: Wed, 10 Sep 2025 16:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.517518
- Title: SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation
- Title(参考訳): SocialNav-SUB:ソーシャルロボットナビゲーションにおけるシーン理解のためのベンチマークVLM
- Authors: Michael J. Munje, Chen Tang, Shuijing Liu, Zichao Hu, Yifeng Zhu, Jiaxun Cui, Garrett Warnell, Joydeep Biswas, Peter Stone,
- Abstract要約: ダイナミックで人間中心の環境でのソーシャルナビゲーションには、堅牢なシーン理解に基づく社会的に適合した決定が必要である。
近年のビジョン・ランゲージ・モデル (VLM) は、社会ロボットナビゲーションの曖昧な要求に沿う有望な能力を示している。
本稿では,ソーシャルナビゲーションシーン理解ベンチマーク(SocialNav-SUB)を紹介する。
- 参考スコア(独自算出の注目度): 32.75496547879437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot navigation in dynamic, human-centered environments requires socially-compliant decisions grounded in robust scene understanding. Recent Vision-Language Models (VLMs) exhibit promising capabilities such as object recognition, common-sense reasoning, and contextual understanding-capabilities that align with the nuanced requirements of social robot navigation. However, it remains unclear whether VLMs can accurately understand complex social navigation scenes (e.g., inferring the spatial-temporal relations among agents and human intentions), which is essential for safe and socially compliant robot navigation. While some recent works have explored the use of VLMs in social robot navigation, no existing work systematically evaluates their ability to meet these necessary conditions. In this paper, we introduce the Social Navigation Scene Understanding Benchmark (SocialNav-SUB), a Visual Question Answering (VQA) dataset and benchmark designed to evaluate VLMs for scene understanding in real-world social robot navigation scenarios. SocialNav-SUB provides a unified framework for evaluating VLMs against human and rule-based baselines across VQA tasks requiring spatial, spatiotemporal, and social reasoning in social robot navigation. Through experiments with state-of-the-art VLMs, we find that while the best-performing VLM achieves an encouraging probability of agreeing with human answers, it still underperforms simpler rule-based approach and human consensus baselines, indicating critical gaps in social scene understanding of current VLMs. Our benchmark sets the stage for further research on foundation models for social robot navigation, offering a framework to explore how VLMs can be tailored to meet real-world social robot navigation needs. An overview of this paper along with the code and data can be found at https://larg.github.io/socialnav-sub .
- Abstract(参考訳): ダイナミックで人間中心の環境でのロボットナビゲーションには、堅牢なシーン理解に基づく社会的に適合した決定が必要である。
近年のビジョン・ランゲージ・モデル(VLM)は、物体認識、常識推論、社会ロボットナビゲーションのニュアンスな要求に沿った文脈理解能力などの有望な能力を示す。
しかしながら、VLMが複雑な社会ナビゲーションシーン(例えばエージェントと人間の意図の空間的時間的関係を推測する)を正確に理解できるかは、安全かつ社会的に適合するロボットナビゲーションに不可欠である。
近年、社会ロボットナビゲーションにおけるVLMの使用を探求する研究もあるが、これらの必要条件を満たす能力について体系的に評価する研究は存在しない。
本稿では,ソーシャルナビゲーションシーン理解ベンチマーク(SocialNav-SUB)について紹介する。VQA(Visual Question Answering)データセットと,実世界のソーシャルロボットナビゲーションシナリオにおけるシーン理解のためのVLM評価ベンチマークである。
SocialNav-SUBは、ソーシャルロボットナビゲーションにおいて空間的、時空間的、社会的推論を必要とするVQAタスク全体で、人間とルールに基づくベースラインに対してVLMを評価する統一的なフレームワークを提供する。
最先端のVLMを用いた実験により,最も優れたVLMは,人間の回答に同意する可能性を高める一方で,より単純なルールベースアプローチと人間のコンセンサスベースラインを過小評価し,現在のVLMの社会的シーン理解における重要なギャップを示唆していることがわかった。
我々のベンチマークは、ソーシャルロボットナビゲーションの基盤モデルに関するさらなる研究のステージを設定し、現実のソーシャルロボットナビゲーションのニーズを満たすためにVLMをどのように調整できるかを探求するためのフレームワークを提供する。
この論文の概要とコードとデータはhttps://larg.github.io/socialnav-sub で見ることができる。
関連論文リスト
- From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。
このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。
4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2026-02-09T18:46:12Z) - SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning [6.245382633570723]
人間の快適さ、社会的規範、文脈的適切さを考慮に入れた社会に順応したナビゲーションはいまだに探索されていない。
そこで我々は,ソーシャルに適合したナビゲーションと強化微調整のための,効率的なMixture-of-Experts視覚言語モデルSocialNav-MoEを提案する。
SNEIデータセットの実験では、SocialNav-MoEはナビゲーションの精度と効率のバランスが良好であることを実証している。
論文 参考訳(メタデータ) (2025-12-15T14:21:15Z) - LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating [47.62872797480247]
LISN-Benchは,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークである。
VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。
本手法は,最も競争力のあるベースラインよりも63%以上高い91.3%の平均成功率を達成する。
論文 参考訳(メタデータ) (2025-12-10T18:54:30Z) - SocialEval: Evaluating Social Intelligence of Large Language Models [70.90981021629021]
ソーシャルインテリジェンス(英語版) (SI) は、社会的目標を達成するために社会的相互作用をナビゲートする際に賢明に行動する対人能力を持つ人間を装備する。
結果指向の目標達成評価とプロセス指向の対人能力評価という,運用評価パラダイムを提示する。
スクリプトベースのバイリンガルSIベンチマークであるSocialEvalを提案する。
論文 参考訳(メタデータ) (2025-06-01T08:36:51Z) - Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces [40.44502415484082]
本研究では,人間の知覚とロボット行動のギャップを埋めるために言語を用いることを提案する。
視覚言語データセットであるSocial Robot Navigation via Explainable Interactions (SNEI)を作成し、40万個の人称視覚質問回答(VQA)を特徴とする。
我々は、SNEIを用いてVLM、Social-LLaVAを微調整し、データセットの実用性を実証する。
論文 参考訳(メタデータ) (2024-12-30T23:59:30Z) - Principles and Guidelines for Evaluating Social Robot Navigation
Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。
コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文 参考訳(メタデータ) (2023-06-29T07:31:43Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。