論文の概要: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
- arxiv url: http://arxiv.org/abs/2406.14240v1
- Date: Thu, 20 Jun 2024 12:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:01:46.551058
- Title: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
- Title(参考訳): CityNav:地理情報付き言語目標航法データセット
- Authors: Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue,
- Abstract要約: 実世界の都市からの3Dポイントクラウド表現を用いた言語目標航法のための新しいデータセットであるCityNavを紹介した。
CityNavには、人間の実証軌道と組み合わせた32,637の自然言語記述が含まれている。
我々はCityNavデータセット上で,最新の航法ベースラインと提案したモデルについてベンチマークを行った。
- 参考スコア(独自算出の注目度): 25.51740922661166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) aims to guide autonomous agents through real-world environments by integrating visual and linguistic cues. While substantial progress has been made in understanding these interactive modalities in ground-level navigation, aerial navigation remains largely underexplored. This is primarily due to the scarcity of resources suitable for real-world, city-scale aerial navigation studies. To bridge this gap, we introduce CityNav, a new dataset for language-goal aerial navigation using a 3D point cloud representation from real-world cities. CityNav includes 32,637 natural language descriptions paired with human demonstration trajectories, collected from participants via a new web-based 3D simulator developed for this research. Each description specifies a navigation goal, leveraging the names and locations of landmarks within real-world cities. We also provide baseline models of navigation agents that incorporate an internal 2D spatial map representing landmarks referenced in the descriptions. We benchmark the latest aerial navigation baselines and our proposed model on the CityNav dataset. The results using this dataset reveal the following key findings: (i) Our aerial agent models trained on human demonstration trajectories outperform those trained on shortest path trajectories, highlighting the importance of human-driven navigation strategies; (ii) The integration of a 2D spatial map significantly enhances navigation efficiency at city scale. Our dataset and code are available at https://water-cookie.github.io/city-nav-proj/
- Abstract(参考訳): ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
地上レベルの航法において、これらの対話的な様相を理解するためにかなりの進歩があったが、航空航法はほとんど探索されていない。
これは主に、現実世界の都市規模の航空航法研究に適した資源が不足しているためである。
このギャップを埋めるために、現実世界の都市の3Dポイントクラウド表現を用いた言語とゴールの航空ナビゲーションのための新しいデータセットであるCityNavを紹介します。
CityNavには、人間の実証軌道と組み合わせた32,637の自然言語記述が含まれており、この研究のために開発された新しいWebベースの3Dシミュレータを通して参加者から収集されている。
それぞれの説明はナビゲーションの目標を定義し、現実世界の都市内のランドマークの名前と場所を活用する。
また,記述に参照されるランドマークを表す内部2次元空間マップを組み込んだナビゲーションエージェントのベースラインモデルも提供する。
我々はCityNavデータセット上で,最新の航法ベースラインと提案したモデルについてベンチマークを行った。
このデータセットを使用した結果、以下の重要な結果が明らかになった。
一 最短経路軌跡訓練者より優れた人間の実演軌道訓練者モデルであって、人力ナビゲーション戦略の重要性を浮き彫りにしたもの。
2次元空間マップの統合は,都市規模でのナビゲーション効率を著しく向上させる。
私たちのデータセットとコードはhttps://water-cookie.github.io/city-nav-proj/で公開されています。
関連論文リスト
- GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Predicting Topological Maps for Visual Navigation in Unexplored
Environments [28.30219170556201]
本研究では,未探索環境における自律探査とナビゲーションのためのロボット学習システムを提案する。
本手法のコアとなるのは,目標に基づく視覚ナビゲーションを支援するために,確率的レイアウトグラフを構築し,予測し,使用するプロセスである。
我々はMatterport3Dで我々のフレームワークをテストし、目に見えない環境でより成功し、効率的なナビゲーションを示す。
論文 参考訳(メタデータ) (2022-11-23T00:53:11Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。