論文の概要: LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
- arxiv url: http://arxiv.org/abs/2512.09920v1
- Date: Wed, 10 Dec 2025 18:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.646223
- Title: LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
- Title(参考訳): LISN: VLM制御による言語指導型ソーシャルナビゲーション
- Authors: Junting Chen, Yunchuan Li, Panfeng Jiang, Jiacheng Du, Zixuan Chen, Chenrui Tie, Jiajun Deng, Lin Shao,
- Abstract要約: LISN-Benchは,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークである。
VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。
本手法は,最も競争力のあるベースラインよりも63%以上高い91.3%の平均成功率を達成する。
- 参考スコア(独自算出の注目度): 47.62872797480247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Towards human-robot coexistence, socially aware navigation is significant for mobile robots. Yet existing studies on this area focus mainly on path efficiency and pedestrian collision avoidance, which are essential but represent only a fraction of social navigation. Beyond these basics, robots must also comply with user instructions, aligning their actions to task goals and social norms expressed by humans. In this work, we present LISN-Bench, the first simulation-based benchmark for language-instructed social navigation. Built on Rosnav-Arena 3.0, it is the first standardized social navigation benchmark to incorporate instruction following and scene understanding across diverse contexts. To address this task, we further propose Social-Nav-Modulator, a fast-slow hierarchical system where a VLM agent modulates costmaps and controller parameters. Decoupling low-level action generation from the slower VLM loop reduces reliance on high-frequency VLM inference while improving dynamic avoidance and perception adaptability. Our method achieves an average success rate of 91.3%, which is greater than 63% than the most competitive baseline, with most of the improvements observed in challenging tasks such as following a person in a crowd and navigating while strictly avoiding instruction-forbidden regions. The project website is at: https://social-nav.github.io/LISN-project/
- Abstract(参考訳): 人間ロボットの共存に向けては、移動ロボットにとって社会的に意識されたナビゲーションが重要である。
しかし、この領域の既存の研究は、道の効率と歩行者衝突回避に重点を置いている。
これらの基本に加えて、ロボットはユーザーの指示に従い、タスク目標や人間によって表現される社会的規範に行動を調整する必要がある。
本研究では,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークであるLISN-Benchを紹介する。
Rosnav-Arena 3.0をベースとして開発されたこのベンチマークは、さまざまなコンテキストにまたがるインストラクションとシーン理解を取り入れた最初の標準化されたソーシャルナビゲーションベンチマークである。
この課題に対処するために,VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。
遅いVLMループから低レベルのアクション生成を分離することで、ダイナミック回避と知覚適応性を改善しながら、高周波VLM推論への依存を減らすことができる。
提案手法は,最も競争力のあるベースラインの63%以上である91.3%の平均的な成功率を達成する。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation [32.75496547879437]
ダイナミックで人間中心の環境でのソーシャルナビゲーションには、堅牢なシーン理解に基づく社会的に適合した決定が必要である。
近年のビジョン・ランゲージ・モデル (VLM) は、社会ロボットナビゲーションの曖昧な要求に沿う有望な能力を示している。
本稿では,ソーシャルナビゲーションシーン理解ベンチマーク(SocialNav-SUB)を紹介する。
論文 参考訳(メタデータ) (2025-09-10T16:47:00Z) - DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。
我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-28T04:46:13Z) - Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。
本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。
メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文 参考訳(メタデータ) (2024-03-22T23:12:28Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - Principles and Guidelines for Evaluating Social Robot Navigation
Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。
コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文 参考訳(メタデータ) (2023-06-29T07:31:43Z) - Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of
Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。
私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文 参考訳(メタデータ) (2022-03-28T19:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。