論文の概要: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
- arxiv url: http://arxiv.org/abs/2406.14240v2
- Date: Sat, 05 Oct 2024 16:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 09:04:40.529027
- Title: CityNav: Language-Goal Aerial Navigation Dataset with Geographic Information
- Title(参考訳): CityNav:地理情報付き言語目標航法データセット
- Authors: Jungdae Lee, Taiki Miyanishi, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Yutaka Matsuo, Nakamasa Inoue,
- Abstract要約: ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
実都市の3次元環境における言語誘導型航法用に明示的に設計された新しいデータセットであるCityNavを紹介する。
CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。
- 参考スコア(独自算出の注目度): 25.51740922661166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language navigation (VLN) aims to guide autonomous agents through real-world environments by integrating visual and linguistic cues. Despite notable advancements in ground-level navigation, the exploration of aerial navigation using these modalities remains limited. This gap primarily arises from a lack of suitable resources for real-world, city-scale aerial navigation studies. To remedy this gap, we introduce CityNav, a novel dataset explicitly designed for language-guided aerial navigation in photorealistic 3D environments of real cities. CityNav comprises 32k natural language descriptions paired with human demonstration trajectories, collected via a newly developed web-based 3D simulator. Each description identifies a navigation goal, utilizing the names and locations of landmarks within actual cities. As an initial step toward addressing this challenge, we provide baseline models of navigation agents that incorporate an internal 2D spatial map representing landmarks referenced in the descriptions. We have benchmarked the latest aerial navigation methods alongside our proposed baseline model on the CityNav dataset. The findings are revealing: (i) our aerial agent model trained on human demonstration trajectories, outperform those trained on shortest path trajectories by a large margin; (ii) incorporating 2D spatial map information markedly and robustly enhances navigation performance at a city scale; (iii) despite the use of map information, our challenging CityNav dataset reveals a persistent performance gap between our baseline models and human performance. To foster further research in aerial VLN, we have made the dataset and code available at https://water-cookie.github.io/city-nav-proj/
- Abstract(参考訳): ビジョン・アンド・ランゲージナビゲーション(VLN)は、視覚的および言語的手がかりを統合することで、現実の環境を通して自律的なエージェントを誘導することを目的としている。
地上航行の顕著な進歩にもかかわらず、これらのモダリティを用いた航空航法は依然として限られている。
このギャップは主に、実際の都市規模の航法研究に適した資源が不足していることから生じる。
このギャップを解消するために、実際の都市の光リアルな3D環境において、言語誘導型空中ナビゲーション用に明示的に設計された新しいデータセットであるCityNavを紹介した。
CityNavは、新たに開発されたWebベースの3Dシミュレータを通じて収集された、人間の実証軌道と組み合わせた32kの自然言語記述で構成されている。
各記述は、実際の都市内のランドマークの名前と場所を利用して、ナビゲーションの目標を特定する。
この課題に対処するための最初のステップとして、記述に参照されるランドマークを表す内部2次元空間マップを組み込んだナビゲーションエージェントのベースラインモデルを提供する。
提案したCityNavデータセットのベースラインモデルと並行して,最新の航空ナビゲーション手法をベンチマークした。
調査結果は明らかだ。
一 人間の実演軌跡を訓練した航空エージェントモデルは、最短経路軌跡を訓練した者よりも大きなマージンで優れる。
二 都市規模での航法性能の顕著かつ堅牢な2次元空間地図情報の導入
3) マップ情報の利用にもかかわらず,我々の挑戦するCityNavデータセットは,ベースラインモデルと人的パフォーマンスの持続的なパフォーマンスギャップを明らかにします。
航空VLNのさらなる研究を促進するため、データセットとコードをhttps://water-cookie.github.io/city-nav-proj/で公開しました。
関連論文リスト
- SD-OVON: A Semantics-aware Dataset and Benchmark Generation Pipeline for Open-Vocabulary Object Navigation in Dynamic Scenes [15.178229677519063]
動的シーンにおけるオープン語彙オブジェクトナビゲーションのためのセマンティックス対応データセットとベンチマーク生成パイプライン(SD-OVON)を提案する。
事前訓練されたマルチモーダル基礎モデルを用いて、現実のセマンティクスと日々のコモンセンスに準拠した無限のフォトリアリスティックシーンの変種を生成し、ナビゲーションエージェントの訓練と評価を行う。
オープン語彙オブジェクトナビゲーションタスクの約3kと10kのエピソードから構成されるSD-OVON-3kとSD-OVON-10kの2つの事前生成オブジェクトナビゲーションタスクデータセットを提供する。
論文 参考訳(メタデータ) (2025-05-24T21:37:06Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - Learning to Drive Anywhere with Model-Based Reannotation [49.80796496905606]
ロボットの視覚ナビゲーションポリシーを一般化するためのフレームワークを開発する。
クラウドソースの遠隔操作データや、ラベルなしのYouTubeビデオなど、受動的に収集されたデータを活用します。
このデータはLogoNavに蒸留される。LogoNavは、視覚的目標やGPSのウェイポイントに照準を合わせられた長い水平航法ポリシーだ。
論文 参考訳(メタデータ) (2025-05-08T18:43:39Z) - Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks [24.690910258151693]
既存のボディードナビゲーションのモデルは、現実の世界で実践的なジェネラリストとして機能するには足りていない。
多様な具体的ナビゲーションタスクを統合するために設計された,ビデオベースの視覚言語アクションモデルであるUni-NaVidを提案する。
Uni-NaVidは、一般的に使われているすべてのナビゲーションタスクの入力および出力データ構成によってこれを達成している。
論文 参考訳(メタデータ) (2024-12-09T05:55:55Z) - UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。
本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。
我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。
NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文 参考訳(メタデータ) (2024-11-13T12:51:49Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。