論文の概要: AerialVLN: Vision-and-Language Navigation for UAVs
- arxiv url: http://arxiv.org/abs/2308.06735v1
- Date: Sun, 13 Aug 2023 09:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 15:45:51.008083
- Title: AerialVLN: Vision-and-Language Navigation for UAVs
- Title(参考訳): aerialvln:uavの視覚・言語ナビゲーション
- Authors: Shubo Liu and Hongsheng Zhang and Yuankai Qi and Peng Wang and Yaning
Zhang and Qi Wu
- Abstract要約: AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
- 参考スコア(独自算出の注目度): 23.40363176320464
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn
significant attention in both computer vision and natural language processing
communities. Existing VLN tasks are built for agents that navigate on the
ground, either indoors or outdoors. However, many tasks require intelligent
agents to carry out in the sky, such as UAV-based goods delivery,
traffic/security patrol, and scenery tour, to name a few. Navigating in the sky
is more complicated than on the ground because agents need to consider the
flying height and more complex spatial relationship reasoning. To fill this gap
and facilitate research in this field, we propose a new task named AerialVLN,
which is UAV-based and towards outdoor environments. We develop a 3D simulator
rendered by near-realistic pictures of 25 city-level scenarios. Our simulator
supports continuous navigation, environment extension and configuration. We
also proposed an extended baseline model based on the widely-used
cross-modal-alignment (CMA) navigation methods. We find that there is still a
significant gap between the baseline model and human performance, which
suggests AerialVLN is a new challenging task. Dataset and code is available at
https://github.com/AirVLN/AirVLN.
- Abstract(参考訳): 近年,コンピュータビジョンと自然言語処理コミュニティにおいて視覚言語ナビゲーション(vln)タスクが注目されている。
既存のvlnタスクは、屋内または屋外の地上をナビゲートするエージェントのために構築されている。
しかし、多くのタスクでは、UAVベースの商品配送、交通・警備パトロール、景観ツアーなど、知的エージェントが空を飛ぶことを必要としている。
空を航行することは地上よりも複雑である、なぜならエージェントは飛行高度とより複雑な空間関係の推論を考える必要があるからだ。
このギャップを埋め、この分野の研究を促進するために、UAVベースの屋外環境に向けたAerialVLNという新しいタスクを提案する。
都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。
シミュレータは,連続ナビゲーション,環境拡張,設定をサポートする。
また,広義のクロスモーダルアライメント(CMA)ナビゲーション手法に基づく拡張ベースラインモデルも提案した。
AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
データセットとコードはhttps://github.com/AirVLN/AirVLNで入手できる。
関連論文リスト
- UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。
エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。
UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-25T02:44:59Z) - NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。
本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。
我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。
NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文 参考訳(メタデータ) (2024-11-13T12:51:49Z) - Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。
プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:29:01Z) - Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。
従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文 参考訳(メタデータ) (2024-07-10T15:49:07Z) - NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。
NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文 参考訳(メタデータ) (2024-02-24T16:39:16Z) - SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。
SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文 参考訳(メタデータ) (2023-09-08T02:24:37Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。
この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。
AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文 参考訳(メタデータ) (2022-09-08T10:27:53Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z) - Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文 参考訳(メタデータ) (2020-11-07T16:49:04Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。