論文の概要: SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps
- arxiv url: http://arxiv.org/abs/2508.03053v1
- Date: Tue, 05 Aug 2025 03:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.765219
- Title: SkeNa: Learning to Navigate Unseen Environments Based on Abstract Hand-Drawn Maps
- Title(参考訳): SkeNa: 抽象ハンドドローマップに基づく未知の環境のナビゲーション
- Authors: Haojun Xu, Jiaqi Xiang, Wu Wei, Jinyu Chen, Linqing Zhong, Linjiang Huang, Hongyu Yang, Si Liu,
- Abstract要約: 我々はSketch map-based visual Navigation (SkeNa)を紹介する。
SkeNaは、手書きのスケッチマップのみをガイダンスとして、エージェントが見えない環境でゴールに到達しなければならない、具体化されたナビゲーションタスクである。
我々は,71の屋内シーンにわたる54k軌道とスケッチマップのペアからなる大規模データセットSoRを提案する。
- 参考スコア(独自算出の注目度): 20.963573846962987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A typical human strategy for giving navigation guidance is to sketch route maps based on the environmental layout. Inspired by this, we introduce Sketch map-based visual Navigation (SkeNa), an embodied navigation task in which an agent must reach a goal in an unseen environment using only a hand-drawn sketch map as guidance. To support research for SkeNa, we present a large-scale dataset named SoR, comprising 54k trajectory and sketch map pairs across 71 indoor scenes. In SoR, we introduce two navigation validation sets with varying levels of abstraction in hand-drawn sketches, categorized based on their preservation of spatial scales in the environment, to facilitate future research. To construct SoR, we develop an automated sketch-generation pipeline that efficiently converts floor plans into hand-drawn representations. To solve SkeNa, we propose SkeNavigator, a navigation framework that aligns visual observations with hand-drawn maps to estimate navigation targets. It employs a Ray-based Map Descriptor (RMD) to enhance sketch map valid feature representation using equidistant sampling points and boundary distances. To improve alignment with visual observations, a Dual-Map Aligned Goal Predictor (DAGP) leverages the correspondence between sketch map features and on-site constructed exploration map features to predict goal position and guide navigation. SkeNavigator outperforms prior floor plan navigation methods by a large margin, improving SPL on the high-abstract validation set by 105% relatively. Our code and dataset will be released.
- Abstract(参考訳): ナビゲーションガイダンスを与える典型的なヒューマン戦略は、環境レイアウトに基づいてルートマップをスケッチすることである。
そこで我々はSketch map-based visual Navigation (SkeNa)を紹介した。これはエージェントが手書きのスケッチマップのみをガイダンスとして、見知らぬ環境で目標を達成するための具体的ナビゲーションタスクである。
SkeNaの研究を支援するために,71の屋内シーンにわたる54k軌道とスケッチマップのペアからなる大規模データセットSoRを提案する。
SoRでは,手描きスケッチの抽象レベルが異なる2つのナビゲーション検証セットを導入し,その環境における空間的スケールの保存に基づいて分類し,今後の研究を促進する。
SoRを構築するために,フロアプランを手書き表現に変換する自動スケッチ生成パイプラインを開発した。
そこで我々は,SkeNavigatorを提案する。SkeNavigatorはナビゲーション対象を推定するために手書き地図と視覚観測を一致させるナビゲーションフレームワークである。
等距離サンプリング点と境界距離を用いたスケッチマップ有効特徴表現を強化するために、レイベースのマップ記述子(RMD)を用いる。
デュアルマップアラインドゴール予測器 (DAGP) は, スケッチマップ特徴と現場で構築された探索マップ特徴との対応を利用して, 目標位置の予測と誘導ナビゲーションを行う。
SkeNavigatorは、事前のフロアプランナビゲーション手法を大きなマージンで上回り、比較的105%の精度で高い精度でSPLを改善した。
コードとデータセットはリリースされます。
関連論文リスト
- TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation [3.2688425993442696]
本稿では,視覚言語ナビゲーション(VLN)タスクに対して,問題を4つのサブモジュールに分解してモジュール化する手法を提案する。
自然言語によるナビゲーションの指導を受けると、まずLLMにランドマークと訪問順序を抽出するよう促す。
環境のトポロジカルマップ上の最短経路アルゴリズムを用いて,開始位置から最終ランドマークまでの経路仮説を生成する。
論文 参考訳(メタデータ) (2025-02-11T07:09:37Z) - Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach [5.009635912655658]
手描きの地図は、しばしばスケールの歪みや目印の欠如のような不正確さを含む。
本稿では,事前学習型視覚言語モデルを活用した手書き地図ナビゲーション(HAM-Nav)アーキテクチャを提案する。
Ham-Navは、トポロジカルマップに基づく位置推定とナビゲーション計画のためのユニークな選択型ビジュアルアソシエーション・プロンプティング・アプローチを統合している。
論文 参考訳(メタデータ) (2025-01-31T19:03:33Z) - NavTopo: Leveraging Topological Maps For Autonomous Navigation Of a Mobile Robot [1.0550841723235613]
トポロジマップと2段階の経路計画に基づく完全なナビゲーションパイプラインを提案する。
パイプラインは、入力ポイントクラウドのニューラルネットワーク記述子と2Dプロジェクションをマッチングすることで、グラフにローカライズする。
提案手法は,大規模な室内光相対論的シミュレーション環境でテストし,一般的な計量マッピング手法であるRTAB-MAPに基づく計量地図に基づく手法と比較する。
論文 参考訳(メタデータ) (2024-10-15T10:54:49Z) - PRET: Planning with Directed Fidelity Trajectory for Vision and Language Navigation [30.710806048991923]
視覚と言語ナビゲーションは、エージェントが自然言語の指示に従ってナビゲートする必要があるタスクである。
近年の手法では、各ステップで構築されたトポロジーマップのサブゴールを予測し、長期的な行動計画を可能にする。
本稿では,指示と指向性軌道のアライメントを考慮し,ナビゲーション計画を容易にする方法を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:22:18Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Navigating to Objects in Unseen Environments by Distance Prediction [16.023495311387478]
推定距離マップに基づいて経路計画を直接実行可能なオブジェクトゴールナビゲーションフレームワークを提案する。
具体的には,鳥眼のセマンティックマップを入力として,地図セルから対象物までの距離を推定する。
推定距離マップを用いて、エージェントは環境を探索し、人間設計または学習されたナビゲーションポリシーに基づいて対象物に移動することができる。
論文 参考訳(メタデータ) (2022-02-08T09:22:50Z) - Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation [143.6144560164782]
セマンティックマップを用いた室内ナビゲーションのための学習型アプローチを提案する。
我々は、部屋の位置、大きさ、形状の信念を示すアモーダルな意味的トップダウンマップを生成するためにモデルを訓練する。
次に、これらのマップを使用して、対象の部屋にある点を予測し、その点に向かうためのポリシーを訓練します。
論文 参考訳(メタデータ) (2020-07-20T02:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。