論文の概要: SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments
- arxiv url: http://arxiv.org/abs/2603.16166v1
- Date: Tue, 17 Mar 2026 06:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.133745
- Title: SignNav: Leveraging Signage for Semantic Visual Navigation in Large-Scale Indoor Environments
- Title(参考訳): SignNav: 大規模屋内環境におけるセマンティックビジュアルナビゲーションの活用
- Authors: Jian Sun, Yuming Huang, He Li, Shuqi Xiao, Shenyan Guo, Maani Ghaffari, Qingbiao Li, Chengzhong Xu, Hui Kong,
- Abstract要約: 人間は、大規模屋内環境内の目的地に向かうために、手話によって提供される意味的ヒントを日常的に活用する。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを基盤として,時間認識モジュールは歴史的状態と現在の観測との長距離依存性を捉えている。
- 参考スコア(独自算出の注目度): 57.79171900005793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans routinely leverage semantic hints provided by signage to navigate to destinations within novel Large-Scale Indoor (LSI) environments, such as hospitals and airport terminals. However, this capability remains underexplored within the field of embodied navigation. This paper introduces a novel embodied navigation task, SignNav, which requires the agent to interpret semantic hint from signage and reason about the subsequent action based on current observation. To facilitate research in this domain, we construct the LSI-Dataset for the training and evaluation of various SignNav agents. Dynamically changing semantic hints and sparse placement of signage in LSI environments present significant challenges to the SignNav task. To address these challenges, we propose the Spatial-Temporal Aware Transformer (START) model for end-to-end decision-making. The spatial-aware module grounds the semantic hint of signage into physical world, while the temporal-aware module captures long-range dependencies between historical states and current observation. Leveraging a two-stage training strategy with Dataset Aggregation (DAgger), our approach achieves state-of-the-art performance, recording an 80% Success Rate (SR) and 0.74 NDTW on val-unseen split. Real-world deployment further demonstrates the practicality of our method in physical environment without pre-built map.
- Abstract(参考訳): 人間は、病院や空港ターミナルのような新しい大規模屋内(LSI)環境の中で目的地に向かうために、標識によって提供される意味的なヒントを日常的に活用する。
しかし、この能力はいまだに具体化ナビゲーションの分野において過小評価されている。
本稿では,手話からの意味的ヒントを解釈し,現在の観察に基づくその後の行動の推論を行うための,新しい具体的ナビゲーションタスクSignNavを紹介する。
この領域の研究を容易にするために,様々なSignNavエージェントのトレーニングと評価のためのLSI-Datasetを構築した。
LSI環境における意味的ヒントの動的変更とサインの疎配置は、SignNavタスクに重大な課題をもたらす。
これらの課題に対処するために、エンドツーエンドの意思決定のための空間的認識変換器(START)モデルを提案する。
空間認識モジュールは物理的世界へのサインの意味的ヒントを根拠とし、時間認識モジュールは歴史的状態と現在の観測の間の長距離依存関係をキャプチャする。
データセット集約(DAgger)による2段階のトレーニング戦略を活用することで、最先端のパフォーマンスを実現し、val-unseen スプリット上で80%の成功率(SR)と0.74 NDTWを記録した。
実世界の展開は,事前構築されたマップを使わずに,物理環境における本手法の実用性をさらに実証する。
関連論文リスト
- From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - Nav-$R^2$ Dual-Relation Reasoning for Generalizable Open-Vocabulary Object-Goal Navigation [67.68165784193556]
Nav-$R2$は、ターゲット環境モデリングと環境行動計画という2つのタイプの関係を明示的にモデル化するフレームワークである。
我々のSA-Memは、時間的・意味的両面から最も標的に関連し、現在の観測関連の特徴を保っている。
Nav-R2は、合理化され効率的なパイプラインを通して見えないオブジェクトをローカライズする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-12-02T04:21:02Z) - Exploring Spatial Representation to Enhance LLM Reasoning in Aerial Vision-Language Navigation [11.267956604072845]
ALN(Aerial Vision-and-Language Navigation)は、無人航空機(Unmanned Aerial Vehicles、UAV)が自然言語の指示や視覚的手がかりを通じて屋外の環境を航行できるようにする新しいタスクである。
本稿では,大規模言語モデル(LLM)をアクション予測のエージェントとして活用する,空飛ぶVLNタスクのためのトレーニングフリーゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-11T03:54:48Z) - Semantic Environment Atlas for Object-Goal Navigation [12.057544558656035]
エンボディエージェントの視覚ナビゲーション能力を高めるために,セマンティック環境アトラス (SEA) を導入した。
SEAは様々な環境からの複数のセマンティックマップを統合し、場所-対象関係の記憶を保持する。
本手法は, 現状よりも12.4%向上した39.0%を達成できるが, 騒音・作動条件下では頑健性も維持できる。
論文 参考訳(メタデータ) (2024-10-05T00:37:15Z) - TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。
我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。
TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。