論文の概要: SignScene: Visual Sign Grounding for Mapless Navigation
- arxiv url: http://arxiv.org/abs/2602.12686v1
- Date: Fri, 13 Feb 2026 07:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.426543
- Title: SignScene: Visual Sign Grounding for Mapless Navigation
- Title(参考訳): SignScene: マップレスナビゲーションのためのビジュアルサイングラウンド
- Authors: Nicky Zimmerman, Joel Loo, Benjamin Koh, Zishuo Wang, David Hsu,
- Abstract要約: ナビゲーションの標識により、地図なしでは馴染みの無い環境をナビゲートできる。
この研究は、ロボットがオープンな世界で地図のないナビゲーションの兆候を同じように活用する方法を研究する。
我々はこれをサイングラウンド化、サイン上の意味的指示を対応するシーン要素とナビゲーションアクションにマッピングする問題として定式化する。
- 参考スコア(独自算出の注目度): 16.019388165747756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Navigational signs enable humans to navigate unfamiliar environments without maps. This work studies how robots can similarly exploit signs for mapless navigation in the open world. A central challenge lies in interpreting signs: real-world signs are diverse and complex, and their abstract semantic contents need to be grounded in the local 3D scene. We formalize this as sign grounding, the problem of mapping semantic instructions on signs to corresponding scene elements and navigational actions. Recent Vision-Language Models (VLMs) offer the semantic common-sense and reasoning capabilities required for this task, but are sensitive to how spatial information is represented. We propose SignScene, a sign-centric spatial-semantic representation that captures navigation-relevant scene elements and sign information, and presents them to VLMs in a form conducive to effective reasoning. We evaluate our grounding approach on a dataset of 114 queries collected across nine diverse environment types, achieving 88% grounding accuracy and significantly outperforming baselines. Finally, we demonstrate that it enables real-world mapless navigation on a Spot robot using only signs.
- Abstract(参考訳): ナビゲーションの標識は、地図のない不慣れな環境をナビゲートすることを可能にする。
この研究は、ロボットがオープンな世界で地図のないナビゲーションの兆候を同じように活用する方法を研究する。
現実のサインは多様で複雑であり、それらの抽象的な意味的内容は、局所的な3Dシーンでグラウンド化する必要がある。
我々はこれをサイングラウンド化、サイン上の意味的指示を対応するシーン要素とナビゲーションアクションにマッピングする問題として定式化する。
近年のビジョン・ランゲージモデル(VLM)は、このタスクに必要な意味的な常識と推論能力を提供するが、空間情報の表現方法には敏感である。
本稿では,ナビゲーション関連シーン要素と手話情報をキャプチャする手話中心の空間意味表現であるSignSceneを提案し,実効的推論に寄与する形でVLMに提示する。
我々は,9種類の環境タイプにまたがって収集した114のクエリのデータセットに対するグラウンド化アプローチを評価し,グラウンド化精度88%を達成し,ベースラインを著しく上回る結果を得た。
最後に,Spotロボット上で,サインのみを用いた実世界地図レスナビゲーションを可能にすることを実証した。
関連論文リスト
- SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments [57.79171900005793]
人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
論文 参考訳(メタデータ) (2026-03-17T06:36:26Z) - Mapping High-level Semantic Regions in Indoor Environments without
Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。
地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。
グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文 参考訳(メタデータ) (2024-03-11T18:09:50Z) - A Landmark-Aware Visual Navigation Dataset [6.1190419149081245]
ランドマークを意識したビジュアルナビゲーションデータセットを提示し、人中心の探索ポリシーと地図構築の教師あり学習を可能にする。
人間のアノテータが仮想環境と実環境を探索する際、RGBD観測と人間のポイントクリックペアを収集する。
私たちのデータセットは、屋内環境の部屋や屋外の通路など、幅広い場面をカバーしています。
論文 参考訳(メタデータ) (2024-02-22T04:43:20Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - Robot Navigation in Unseen Spaces using an Abstract Map [11.473894284561878]
ロボットナビゲーションシステムでは,人間と同じ記号空間情報を用いて,目立たない環境を意図的にナビゲートする。
本稿では,動的システムを用いて抽象地図の縮尺可能な空間モデルを作成する方法を示し,シンボルナビゲーションの領域における将来的な作業を促進するためのオープンソース実装を提供する。
本稿は,人間のナビゲーション戦略を質的に分析し,目立たない環境におけるロボットの象徴的なナビゲーション能力が今後どのように改善されるかについて,さらなる知見を提供する。
論文 参考訳(メタデータ) (2020-01-31T07:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。