Fugu-MT 論文翻訳(概要): Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

論文の概要: Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance

arxiv url: http://arxiv.org/abs/2604.26839v1
Date: Wed, 29 Apr 2026 16:02:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.481426
Title: Walk With Me: Long-Horizon Social Navigation for Human-Centric Outdoor Assistance
Title（参考訳）: 私と一緒に歩く:人間中心の屋外支援のための長距離ソーシャルナビゲーション
Authors: Lingfeng Zhang, Xiaoshuai Hao, Xizhou Bu, Yingbo Tang, Hongsheng Li, Jinghui Lu, Xiu-shen Wei, Jiayi Ma, Yu Liu, Jing Zhang, Hangjun Ye, Xiaojun Liang, Long Chen, Wenbo Ding,
Abstract要約: Walk with Me(ウォーク・ウィズ・ミー、ウォーク・ウィズ・ミー、ウォーク・ウィズ・ミー、ウォーク・ウィズ・ミー)は、高レベルの人間の指示による長期の社会ナビゲーションのための地図のないフレームワークである。セマンティックインテントの接地、地図のないロングホライゾン計画、安全を意識した推論、低レベルのアクション生成を組み合わせる。
参考スコア（独自算出の注目度）: 70.01362005983516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Assisting humans in open-world outdoor environments requires robots to translate high-level natural-language intentions into safe, long-horizon, and socially compliant navigation behavior. Existing map-based methods rely on costly pre-built HD maps, while learning-based policies are mostly limited to indoor and short-horizon settings. To bridge this gap, we propose Walk with Me, a map-free framework for long-horizon social navigation from high-level human instructions. Walk with Me leverages GPS context and lightweight candidate points-of-interest from a public map API for semantic destination grounding and waypoint proposal. A High-Level Vision-Language Model grounds abstract instructions into concrete destinations and plans coarse waypoint sequences. During execution, an observation-aware routing mechanism determines whether the Low-Level Vision-Language-Action policy can handle the current situation or whether explicit safety reasoning from the High-Level VLM is needed. Routine segments are executed by the Low-Level VLA, while complex situations such as crowded crossings trigger high-level reasoning and stop-and-wait behavior when unsafe. By combining semantic intent grounding, map-free long-horizon planning, safety-aware reasoning, and low-level action generation, Walk with Me enables practical outdoor social navigation for human-centric assistance.
Abstract（参考訳）: オープンワールドの屋外環境で人間を補助するためには、ロボットが高レベルの自然言語の意図を安全で長期的かつ社会的に適合したナビゲーション行動に変換する必要がある。既存のマップベースの手法は高コストで構築されたHDマップに依存し、学習ベースのポリシーは屋内と短距離の設定に限られている。このギャップを埋めるため,高レベルの人間による長期ソーシャルナビゲーションのための地図のないフレームワークであるWalk with Meを提案する。 Walk with Meは、公開マップAPIからGPSコンテキストと軽量な候補ポイントを活用して、セマンティックな宛先グラウンドとウェイポイントの提案を行う。 High-Level Vision-Language Modelは、抽象的な指示を具体的な目的地に置き、粗いウェイポイントシーケンスを計画する。実行中、監視対応ルーティング機構は、低レベルビジョン・ランゲージ・アクションポリシーが現在の状況に対処できるか、高レベルVLMからの明示的な安全推論が必要であるかを判断する。ルーチンセグメントは低レベルVLAによって実行されるが、混雑した交差のような複雑な状況は、安全でない場合に高いレベルの推論と待機行動を引き起こす。セマンティックインテントの接地、地図のないロングホライズン計画、安全を意識した推論、低レベルのアクション生成を組み合わせることで、ウォーク・ウィズ・ミーは人間中心の援助のための実用的な屋外ソーシャルナビゲーションを可能にした。

関連論文リスト

Think before Go: Hierarchical Reasoning for Image-goal Navigation [42.91450373979155]
画像ゴールナビゲーションを高レベル計画と低レベル実行に分解するフレームワークを提案する。高レベルの計画では、視覚言語モデルが自己コンパイルされたデータセット上でトレーニングされ、短期水平計画を生成する。低レベルの実行では、オンライン強化学習ポリシーを使用して、短期ホライゾン計画に規定された行動を決定する。
論文参考訳（メタデータ） (2026-04-19T12:30:22Z)
OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文参考訳（メタデータ） (2026-03-05T17:02:22Z)
Fast Navigation Through Occluded Spaces via Language-Conditioned Map Prediction [18.70552952249317]
このようなコパイロット命令をローカルプランナに組み込むアプローチとしてPaceForecasterを紹介した。 PaceForecasterは、ロボットのローカルセンサーのフットプリントと、提供されるコパイロット命令を入力として取り込む。言語条件付き予測と目標を用いることで,多角形環境下でのローカルマップのみのベースラインよりもナビゲーション性能が36%向上することを示す。
論文参考訳（メタデータ） (2025-12-24T19:34:08Z)
NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction [12.352236127154761]
本稿では,高レベル言語計画と予測的世界モデルイマジネーションを統合するビジョン・ランゲージ・モデル(VLM)について紹介する。我々のアプローチでは、単一のVLMが同時に計画と予測の監視を行うことができる。私たちの研究は、暗黙の時間的予測で明示的な言語計画を融合させ、よりインテリジェントで有能なエンボディエージェントの道を開く、という大きな可能性を浮き彫りにしています。
論文参考訳（メタデータ） (2025-12-01T11:24:16Z)
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文参考訳（メタデータ） (2025-05-08T20:01:35Z)
SPINE: Online Semantic Planning for Missions with Incomplete Natural Language Specifications in Unstructured Environments [27.485636944766718]
大規模言語モデル(LLM)は、様々なロボットタスクに対して強力な文脈推論能力を示している。 SPINEは、自然言語で提供される不完全なミッション仕様を持つミッションのためのオンラインプランナーである。意味論的推論と探索の複数のステップを必要とするミッションを用いてシミュレーションおよび実世界の設定においてSPINEを評価する。
論文参考訳（メタデータ） (2024-10-03T22:41:47Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文参考訳（メタデータ） (2022-10-28T05:30:49Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
Coupling Vision and Proprioception for Navigation of Legged Robots [65.59559699815512]
我々は視覚と受容の相補的な強みを利用して、脚のあるロボットでポイントゴールナビゲーションを実現する。車輪付きロボット(LoCoBot)のベースラインよりも優れた性能を示す。また,センサーと計算能力を備えた四足歩行ロボットに,我々のシステムを実環境に展開することも示す。
論文参考訳（メタデータ） (2021-12-03T18:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。