論文の概要: POINav: Benchmarking and Enhancing Final-Meters Arrival in Real-World Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.28237v1
- Date: Wed, 27 May 2026 09:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.950979
- Title: POINav: Benchmarking and Enhancing Final-Meters Arrival in Real-World Vision-Language Navigation
- Title(参考訳): POINav: リアルタイムビジョンランゲージナビゲーションにおけるファイナルメーターのベンチマークと強化
- Authors: Ruiyan Gong, Meisheng Zhang, Yuxiang Zhao, Mingchao Sun, Yanfen Shen, Zedong Chu, Zhining Gu, Wei Guo, Xiaolong Cheng, Qiming Li, Kangning Niu, Yanqing Zhu, Xiaolong Wu, Tianlun Li, Mu Xu,
- Abstract要約: 実世界のPOIゴールナビゲーションのクローズドループ評価のための最初のベンチマークであるPOINav-Benchを提案する。
実世界の捕獲から復元された11の商業地域を3Dガウススプラッティング(3DGS)で構成し、合計で126,398$m2$をカバーし、163の異なるPOIをカバーしている。
トラバーサビリティを意識したアノテーションと参照トラジェクトリにより、POINav-Benchは現実的なPOIリッチな現実世界環境におけるナビゲーションエージェントの高忠実度評価を可能にする。
- 参考スコア(独自算出の注目度): 15.88856340010264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world navigation is fundamentally driven by Points of Interest (POIs), yet reaching a precise POI remains a critical "final-meters" challenge. Existing Vision-Language Navigation (VLN) benchmarks of POI-goal navigation often suffer from coarse granularity or significant sim-to-real gaps due to generated scene. To bridge this gap, we present POINav-Bench, the first benchmark designed for closed-loop evaluation of real-world POI-goal navigation. It comprises 11 commercial areas reconstructed from real-world captures using 3D Gaussian Splatting (3DGS), covering 126,398 $m^{2}$ in total and spanning 163 distinct POIs. With traversability-aware annotations and reference trajectories, POINav-Bench enables high-fidelity evaluation of navigation agents in realistic, POI-rich real-world environments. Building on this, we propose the POINav Brain-Action Framework where a Brain module performs POI-grounded reasoning to guide an Action module in predicting continuous waypoints for real-world execution. We further curate the POINav-Dataset, containing 70K real-world signage-entrance pairs. Experiments show that our framework provides a viable path toward refining real-world POI-goal navigation.
- Abstract(参考訳): 現実世界のナビゲーションは、基本的にはPoints of Interest (POI) によって駆動されるが、正確なPOIに到達することは、依然として重要な「ファイナルメーター」課題である。
既存のVLN(Vision-Language Navigation)ベンチマークでは、POIゴールナビゲーションは、生成されたシーンによって粗い粒度や大きなsim-to-realギャップに悩まされることが多い。
このギャップを埋めるために,実世界のPOIゴールナビゲーションのクローズドループ評価のための最初のベンチマークであるPOINav-Benchを提案する。
実世界の捕獲から再構築された11の商業地域を3Dガウススプラッティング(3DGS)で構成し、合計で126,398$m^{2}$をカバーし、163の異なるPOIをカバーしている。
トラバーサビリティを意識したアノテーションと参照トラジェクトリにより、POINav-Benchは現実的なPOIリッチな現実世界環境におけるナビゲーションエージェントの高忠実度評価を可能にする。
そこで我々は,PINav Brain-Action Frameworkを提案する。このフレームワークでは,BrainモジュールがPINI-grounded reasoningを実行して,Actionモジュールを誘導し,実世界の実行のための連続的なウェイポイントを予測する。
我々はさらに,70万個の実世界の署名-入出力ペアを含むPOINav-Datasetをキュレートする。
実験により,本フレームワークは実世界のPOIゴールナビゲーションを改良するための有効な経路を提供することが示された。
関連論文リスト
- G-DRAGON: Geospatial Reasoning and Dynamic Planning for Retrieval-Augmented Outdoor Navigation [8.375852792481576]
G-DRAGONは、屋外のオープンワールドナビゲーションのための検索拡張フレームワークである。
軽量LLMに基づく生成検索により、自然言語コマンドをバージョン管理されたローカルOSMエンティティにマッピングする。
高レベルの計画モジュールは、SLAMシステムでグローバルなトポロジカルなルートをブリッジし、地理空間的な経路をロボットのナビゲート可能なフレームに投影する。
論文 参考訳(メタデータ) (2026-05-25T09:52:58Z) - P2DNav: Panorama-to-Downview Reasoning for Zero-shot Vision-and-Language Navigation [30.45812977392826]
P2DNavはゼロショット視覚言語ナビゲーションのための階層的なフレームワークである。
P2DNavはPanorama-to-Downview (P2D), Sliding-Window Dialogue Memory (SDM), Reflective Reorientation Mechanism (RRM)の3つのコアコンポーネントで構成されている。
論文 参考訳(メタデータ) (2026-05-19T10:18:46Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - MetricNet: Recovering Metric Scale in Generative Navigation Policies [51.90872764552077]
MetricNetは、ウェイポイント間の距離を予測するジェネレーティブナビゲーションのための効果的なアドオンである。
MetricNetスケールのウェイポイントの実行はナビゲーションと探索の両方のパフォーマンスを大幅に改善することを示す。
また、MetricNetをナビゲーションポリシーに統合し、目標に向かって移動しながら障害物からロボットを誘導するMetricNavを提案する。
論文 参考訳(メタデータ) (2025-09-17T13:37:13Z) - Vision-Based Localization and LLM-based Navigation for Indoor Environments [4.58063394223487]
本研究では,大規模言語モデル(LLM)に基づくナビゲーションと視覚的ローカライゼーションを統合した屋内ローカライゼーションとナビゲーション手法を提案する。
このモデルは、制限された視聴条件下であっても、テストされた全てのウェイポイントに対して高い信頼性と96%の精度を実現した。
本研究は、オフザシェルフカメラと一般公開フロアプランを用いた、スケーラブルでインフラストラクチャフリーな屋内ナビゲーションの可能性を示す。
論文 参考訳(メタデータ) (2025-08-11T15:59:09Z) - CityNav: A Large-Scale Dataset for Real-World Aerial Navigation [25.51740922661166]
航空VLNのための最初の大規模実世界のデータセットであるCityNavを紹介する。
我々のデータセットは32,637人の実証軌道で構成されており、それぞれに自然言語の記述が組み合わされている。
ナビゲーション中に補助的なモダリティ入力として使用できる地理意味マップを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Uncertainty-driven Planner for Exploration and Navigation [36.933903274373336]
未確認環境における探索とポイントゴールナビゲーションの問題点を考察する。
本論では,屋内マップよりも先進的な学習が,これらの問題に対処する上で大きなメリットをもたらすと論じている。
本稿では、まず、エージェントの視野を超えた占有マップを生成することを学習する新しい計画フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T05:25:31Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。