FuguReport

Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

著者 Lingfeng Zhang, Xiaoshuai Hao, Xizhou Bu, Yingbo Tang, Hongsheng Li, Jinghui Lu, Xiu-shen Wei, Jiayi Ma, Yu Liu, Jing Zhang, Hangjun Ye, Xiaojun Liang, Long Chen, Wenbo Ding
所属 Xiaomi EV / Tsinghua University / Wuhan University / PengCheng Laboratory / Southeast University / Fudan University / Chinese Academy of Sciences / Hefei University of Technology
カテゴリ Method / Social Navigation / Long-horizon mapless navigation framework, Task / Human-Robot Interaction / Human-centric outdoor navigation assistance, Evaluation / Safety-Aware Planning / Safety-conscious reasoning in navigation
ライセンス CC BY 4.0

Abstractの概要

本論文は、事前構築された高精度地図に依存せず、高レベルの人間の指示から長期的な屋外ソーシャルナビゲーションを実現する階層的フレームワーク「Walk with Me」を提案している。本システムは、GPSコンテキスト、候補となるPOI(関心地点)、徒歩ルートAPIなどの公開地図サービスの事前情報を活用し、抽象的なユーザー意図を具体的な目的地と粗いウェイポイント列に変換する。実行時には、高レベルのVision-Language Model(VLM)が現在の状況が通常か安全上重要かを判断し、ロボットが進行すべきか停止して待機すべきかを決定する一方、低レベルのVision-Language-Action(VLA)ポリシーが進行ステップにおいて社会的に適切な局所軌道を生成する。本手法はAthena 2.0 Pro AGV車輪型ロボット上に実装され、ラストマイル配送や視覚障害者誘導を含む実世界の屋外支援環境において20回の試行で評価されている。

新規性

主な貢献は、公開地図サービスのPOIを介した自然言語意図のグラウンディング、長期的なウェイポイント構築、および低レベルVLA制御と明示的な高レベルVLM安全推論による停止・待機行動を適応的に切り替える観測認識型ルーティング機構を統合した、地図不要の屋外ソーシャルナビゲーションフレームワークである。また、目的地のグラウンディング、粗いルート計画、社会的に配慮された実行を、人間中心の屋外支援のための単一の閉ループ階層構造の下に統合している。

成果

20回の実世界試行において、完全なシステムは12回成功し、全体の成功率は60%であった。ラストマイル配送は10回の試行で70%の成功率を達成した一方、視覚障害者誘導は10回の試行で50%にとどまり、後者はより自由度の高い意図のグラウンディングや社会的に敏感な場面での保守的な動作のため難易度が高かった。配送シナリオにおけるアブレーション実験では、低レベルVLA(GNMの20%に対しSocialNavの60%)および高レベルVLM(Qwen3-VL-8Bの30%に対しMiMo-Embodiedの60%)の選択がエンドツーエンドの成功率に大きく影響することが示された。

論文の注目点

  1. 「Walk with Me」は、GPSコンテキスト、POI候補、公開地図サービスの徒歩ルートAPIを活用して抽象的な人間の指示を具体的な屋外目的地に変換し、事前構築された高精度地図の必要性を排除している。
  2. 本フレームワークは観測認識型ルーティング機構を採用しており、高レベルVLMが各制御ステップでシーンの複雑さと安全性を共同評価し、通常の区間は社会的に適切な軌道生成のために低レベルVLAに委譲し、条件が安全でない場合は停止・待機行動を発動する。
  3. 配送および視覚障害者誘導シナリオにおける20回の実世界試行でキロメートル規模の屋外実行が実証され、全体成功率は60%であった。配送タスクのアブレーション実験では、VLMおよびVLAバックボーンの選択による明確な性能差が示され、社会的配慮ポリシー(SocialNav)およびナビゲーション指向VLM(MiMo-Embodied)が最高の成功率を達成した。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。