Fugu-MT 論文翻訳(概要): LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating

論文の概要: LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating

arxiv url: http://arxiv.org/abs/2512.09920v1
Date: Wed, 10 Dec 2025 18:54:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-11 15:14:53.646223
Title: LISN: Language-Instructed Social Navigation with VLM-based Controller Modulating
Title（参考訳）: LISN: VLM制御による言語指導型ソーシャルナビゲーション
Authors: Junting Chen, Yunchuan Li, Panfeng Jiang, Jiacheng Du, Zixuan Chen, Chenrui Tie, Jiajun Deng, Lin Shao,
Abstract要約: LISN-Benchは,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークである。 VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。本手法は,最も競争力のあるベースラインよりも63%以上高い91.3%の平均成功率を達成する。
参考スコア（独自算出の注目度）: 47.62872797480247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Towards human-robot coexistence, socially aware navigation is significant for mobile robots. Yet existing studies on this area focus mainly on path efficiency and pedestrian collision avoidance, which are essential but represent only a fraction of social navigation. Beyond these basics, robots must also comply with user instructions, aligning their actions to task goals and social norms expressed by humans. In this work, we present LISN-Bench, the first simulation-based benchmark for language-instructed social navigation. Built on Rosnav-Arena 3.0, it is the first standardized social navigation benchmark to incorporate instruction following and scene understanding across diverse contexts. To address this task, we further propose Social-Nav-Modulator, a fast-slow hierarchical system where a VLM agent modulates costmaps and controller parameters. Decoupling low-level action generation from the slower VLM loop reduces reliance on high-frequency VLM inference while improving dynamic avoidance and perception adaptability. Our method achieves an average success rate of 91.3%, which is greater than 63% than the most competitive baseline, with most of the improvements observed in challenging tasks such as following a person in a crowd and navigating while strictly avoiding instruction-forbidden regions. The project website is at: https://social-nav.github.io/LISN-project/
Abstract（参考訳）: 人間ロボットの共存に向けては、移動ロボットにとって社会的に意識されたナビゲーションが重要である。しかし、この領域の既存の研究は、道の効率と歩行者衝突回避に重点を置いている。これらの基本に加えて、ロボットはユーザーの指示に従い、タスク目標や人間によって表現される社会的規範に行動を調整する必要がある。本研究では,言語指導型ソーシャルナビゲーションのシミュレーションに基づく最初のベンチマークであるLISN-Benchを紹介する。 Rosnav-Arena 3.0をベースとして開発されたこのベンチマークは、さまざまなコンテキストにまたがるインストラクションとシーン理解を取り入れた最初の標準化されたソーシャルナビゲーションベンチマークである。この課題に対処するために,VLMエージェントがコストマップとコントローラパラメータを変調する高速な階層システムであるSocial-Nav-Modulatorを提案する。遅いVLMループから低レベルのアクション生成を分離することで、ダイナミック回避と知覚適応性を改善しながら、高周波VLM推論への依存を減らすことができる。提案手法は,最も競争力のあるベースラインの63%以上である91.3%の平均的な成功率を達成する。プロジェクトのWebサイトは以下の通り。

関連論文リスト

From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection [57.74400052368147]
本稿では,幾何学的計画と文脈的社会的推論を統合した社会ロボットナビゲーションフレームワークを提案する。このシステムはまず障害物や人間の力学を抽出し、幾何学的に実現可能な候補経路を生成し、次に細調整された視覚言語モデル(VLM)を利用してこれらの経路を評価する。 4つのソーシャルナビゲーション環境における実験により, 生活空間違反の最小期間, 歩行者面の最小時間, 社会ゾーンの侵入がない場合に, ベストな総合的なパフォーマンスを達成できることが実証された。
論文参考訳（メタデータ） (2026-02-09T18:46:12Z)
SocialNav-MoE: A Mixture-of-Experts Vision Language Model for Socially Compliant Navigation with Reinforcement Fine-Tuning [6.245382633570723]
人間の快適さ、社会的規範、文脈的適切さを考慮に入れた社会に順応したナビゲーションはいまだに探索されていない。そこで我々は,ソーシャルに適合したナビゲーションと強化微調整のための,効率的なMixture-of-Experts視覚言語モデルSocialNav-MoEを提案する。 SNEIデータセットの実験では、SocialNav-MoEはナビゲーションの精度と効率のバランスが良好であることを実証している。
論文参考訳（メタデータ） (2025-12-15T14:21:15Z)
SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation [15.585324177543605]
社会規範に準拠した身体的ナビゲーションは、依然としてオープンな研究課題である。 SocialNavは階層的な「ブレインアクション」アーキテクチャを備えた、社会的に認識されたナビゲーションの基盤モデルである。 SocialNavは、最先端の手法に比べて+38%の成功率と+46%の社会コンプライアンス率を達成した。
論文参考訳（メタデータ） (2025-11-26T07:36:01Z)
SocialNav-SUB: Benchmarking VLMs for Scene Understanding in Social Robot Navigation [32.75496547879437]
ダイナミックで人間中心の環境でのソーシャルナビゲーションには、堅牢なシーン理解に基づく社会的に適合した決定が必要である。近年のビジョン・ランゲージ・モデル (VLM) は、社会ロボットナビゲーションの曖昧な要求に沿う有望な能力を示している。本稿では,ソーシャルナビゲーションシーン理解ベンチマーク(SocialNav-SUB)を紹介する。
論文参考訳（メタデータ） (2025-09-10T16:47:00Z)
DORAEMON: Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation [55.888688171010365]
DORAEMONは、人間のナビゲーション機能を模倣したVentralとDorsal Streamsで構成される、認知にインスパイアされたフレームワークである。我々は,DORAEMONをHM3D,MP3D,GOATのデータセット上で評価し,成功率(SR)と成功度(SPL)の測定値の両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-28T04:46:13Z)
Hyp2Nav: Hyperbolic Planning and Curiosity for Crowd Navigation [58.574464340559466]
我々は,群集ナビゲーションを実現するための双曲学習を提唱し,Hyp2Navを紹介した。 Hyp2Navは双曲幾何学の本質的な性質を活用し、ナビゲーションタスクにおける意思決定プロセスの階層的性質をよりよく符号化する。本稿では, 効果的なソーシャルナビゲーション, 最高の成功率, 複数シミュレーション設定におけるリターンをもたらす, 双曲型ポリシーモデルと双曲型好奇性モジュールを提案する。
論文参考訳（メタデータ） (2024-07-18T14:40:33Z)
Unifying Large Language Model and Deep Reinforcement Learning for Human-in-Loop Interactive Socially-aware Navigation [16.789333617628138]
ソーシャルロボットナビゲーションプランナーは、2つの大きな課題に直面している。本稿では,対話型対話型ソーシャル・アウェア・ナビゲーションフレームワークであるSALMを紹介する。メモリ機構は、時間データを連続的な改善のためにアーカイブし、多段階のグラフは推論に基づく大規模言語フィードバックモデルが両方の計画手法の強みを適応的に融合させる。
論文参考訳（メタデータ） (2024-03-22T23:12:28Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [97.88246428240872]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
Principles and Guidelines for Evaluating Social Robot Navigation Algorithms [44.51586279645062]
社会的ロボットナビゲーションは、動的エージェントとそのロボット行動の適切性に対する認識が関係しているため、評価が難しい。コントリビューションには、(a)安全性、快適性、妥当性、丁寧さ、社会的能力、エージェント理解、活動性、文脈に対する応答性に関する原則、(b)メトリクスの使用のためのガイドライン、シナリオ、ベンチマーク、データセット、社会ナビゲーションを評価するためのシミュレーター、(c)様々なシミュレーター、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークなどが含まれます。
論文参考訳（メタデータ） (2023-06-29T07:31:43Z)
Socially Compliant Navigation Dataset (SCAND): A Large-Scale Dataset of Demonstrations for Social Navigation [92.66286342108934]
社会ナビゲーションは、ロボットのような自律的なエージェントが、人間のような他の知的エージェントの存在下で、社会的に従順な方法でナビゲートする能力である。私たちのデータセットには8.7時間、128の軌道、25マイルの社会的に適合した人間の遠隔運転デモが含まれています。
論文参考訳（メタデータ） (2022-03-28T19:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。