Fugu-MT 論文翻訳(概要): CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information

論文の概要: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information

arxiv url: http://arxiv.org/abs/2406.14240v2
Date: Sat, 05 Oct 2024 16:53:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 09:04:40.529027
Title: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
Title（参考訳）: CityNav:地理情報付き言語目標航法データセット
Authors: Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue,
Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。実都市の3次元環境における言語誘導型航法用に明示的に設計された新しいデータセットであるCityNavを紹介する。 CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。
参考スコア（独自算出の注目度）: 25.51740922661166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-and-language navigation (VLN) aims to guide autonomous agents through real-world environments by integrating visual and linguistic cues. Despite notable advancements in ground-level navigation, the exploration of aerial navigation using these modalities remains limited. This gap primarily arises from a lack of suitable resources for real-world, city-scale aerial navigation studies. To remedy this gap, we introduce CityNav, a novel dataset explicitly designed for language-guided aerial navigation in photorealistic 3D environments of real cities. CityNav comprises 32k natural language descriptions paired with human demonstration trajectories, collected via a newly developed web-based 3D simulator. Each description identifies a navigation goal, utilizing the names and locations of landmarks within actual cities. As an initial step toward addressing this challenge, we provide baseline models of navigation agents that incorporate an internal 2D spatial map representing landmarks referenced in the descriptions. We have benchmarked the latest aerial navigation methods alongside our proposed baseline model on the CityNav dataset. The findings are revealing: (i) our aerial agent model trained on human demonstration trajectories, outperform those trained on shortest path trajectories by a large margin; (ii) incorporating 2D spatial map information markedly and robustly enhances navigation performance at a city scale; (iii) despite the use of map information, our challenging CityNav dataset reveals a persistent performance gap between our baseline models and human performance. To foster further research in aerial VLN, we have made the dataset and code available at https://water-cookie.github.io/city-nav-proj/
Abstract（参考訳）: ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。地上航行の顕著な進歩にもかかわらず、これらのモダリティを用いた航空航法は依然として限られている。このギャップは主に、実際の都市規模の航法研究に適した資源が不足していることから生じる。このギャップを解消するために、実際の都市の光リアルな3D環境において、言語誘導型空中ナビゲーション用に明示的に設計された新しいデータセットであるCityNavを紹介した。 CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。各記述は、実際の都市内のランドマークの名前と場所を利用して、ナビゲーションの目標を特定する。この課題に対処するための最初のステップとして、記述に参照されるランドマークを表す内部2次元空間マップを組み込んだナビゲーションエージェントのベースラインモデルを提供する。提案したCityNavデータセットのベースラインモデルと並行して,最新の航空ナビゲーション手法をベンチマークした。調査結果は明らかだ。一人間の実演軌跡を訓練した航空エージェントモデルは、最短経路軌跡を訓練した者よりも大きなマージンで優れる。二都市規模での航法性能の顕著かつ堅牢な2次元空間地図情報の導入 3) マップ情報の利用にもかかわらず,我々の挑戦するCityNavデータセットは,ベースラインモデルと人的パフォーマンスの持続的なパフォーマンスギャップを明らかにします。航空VLNのさらなる研究を促進するため、データセットとコードをhttps://water-cookie.github.io/city-nav-proj/で公開しました。

関連論文リスト

NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。 NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文参考訳（メタデータ） (2024-11-13T12:51:49Z)
GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS) 我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文参考訳（メタデータ） (2024-03-18T09:56:48Z)
VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文参考訳（メタデータ） (2024-01-05T08:05:07Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文参考訳（メタデータ） (2020-08-21T03:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。