Fugu-MT 論文翻訳(概要): AerialVLN: Vision-and-Language Navigation for UAVs

論文の概要: AerialVLN: Vision-and-Language Navigation for UAVs

arxiv url: http://arxiv.org/abs/2308.06735v1
Date: Sun, 13 Aug 2023 09:55:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 15:45:51.008083
Title: AerialVLN: Vision-and-Language Navigation for UAVs
Title（参考訳）: aerialvln:uavの視覚・言語ナビゲーション
Authors: Shubo Liu and Hongsheng Zhang and Yuankai Qi and Peng Wang and Yaning Zhang and Qi Wu
Abstract要約: AerialVLNという,UAVをベースとした,屋外環境に向けた新しいタスクを提案する。都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。 AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。
参考スコア（独自算出の注目度）: 23.40363176320464
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently emerged Vision-and-Language Navigation (VLN) tasks have drawn significant attention in both computer vision and natural language processing communities. Existing VLN tasks are built for agents that navigate on the ground, either indoors or outdoors. However, many tasks require intelligent agents to carry out in the sky, such as UAV-based goods delivery, traffic/security patrol, and scenery tour, to name a few. Navigating in the sky is more complicated than on the ground because agents need to consider the flying height and more complex spatial relationship reasoning. To fill this gap and facilitate research in this field, we propose a new task named AerialVLN, which is UAV-based and towards outdoor environments. We develop a 3D simulator rendered by near-realistic pictures of 25 city-level scenarios. Our simulator supports continuous navigation, environment extension and configuration. We also proposed an extended baseline model based on the widely-used cross-modal-alignment (CMA) navigation methods. We find that there is still a significant gap between the baseline model and human performance, which suggests AerialVLN is a new challenging task. Dataset and code is available at https://github.com/AirVLN/AirVLN.
Abstract（参考訳）: 近年,コンピュータビジョンと自然言語処理コミュニティにおいて視覚言語ナビゲーション(vln)タスクが注目されている。既存のvlnタスクは、屋内または屋外の地上をナビゲートするエージェントのために構築されている。しかし、多くのタスクでは、UAVベースの商品配送、交通・警備パトロール、景観ツアーなど、知的エージェントが空を飛ぶことを必要としている。空を航行することは地上よりも複雑である、なぜならエージェントは飛行高度とより複雑な空間関係の推論を考える必要があるからだ。このギャップを埋め、この分野の研究を促進するために、UAVベースの屋外環境に向けたAerialVLNという新しいタスクを提案する。都市レベル25のシナリオをほぼリアルに表現した3次元シミュレータを開発した。シミュレータは,連続ナビゲーション,環境拡張,設定をサポートする。また,広義のクロスモーダルアライメント(CMA)ナビゲーション手法に基づく拡張ベースラインモデルも提案した。 AerialVLNが新しい課題であることを示唆するベースラインモデルと人的パフォーマンスの間にはまだ大きなギャップがある。データセットとコードはhttps://github.com/AirVLN/AirVLNで入手できる。

関連論文リスト

UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。 UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文参考訳（メタデータ） (2025-04-30T08:40:47Z)
Aerial Vision-and-Language Navigation with Grid-based View Selection and Map Construction [102.70482302750897]
Aerial Vision-and-Language Navigation (Aerial VLN)は、人間の指示に従って空中3D環境をナビゲートする無人航空機エージェントの取得を目的としている。より長い航法、より複雑な3Dシーン、垂直アクションと水平アクションの相互作用の無視により、従来の手法はうまく機能しない。グリッドベースのビュー選択タスクとして空のVLN動作予測を定式化する,グリッドベースのビュー選択フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T05:20:43Z)
OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation [49.697035403548966]
Vision-Language Navigation (VLN) は、言語命令と視覚的手がかりの両方を活用することで、エージェントを環境に誘導することを目的としている。航空VLNのための多目的ツールチェーンと大規模ベンチマークからなるプラットフォームであるOpenFlyを提案する。我々は、100kの軌跡を持つ大規模な航空VLNデータセットを構築し、18のシーンにまたがる様々な高さと長さをカバーした。対応する視覚データは、Unreal, GTA V, Google Earth, 3D Splatting (3D GS)など、様々なレンダリングエンジンと高度な技術を用いて生成される。
論文参考訳（メタデータ） (2025-02-25T09:57:18Z)
AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。 AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文参考訳（メタデータ） (2024-11-27T17:36:08Z)
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation [71.97405667493477]
我々は,UnitedVLNと呼ばれる,新しい汎用3DGSベースの事前学習パラダイムを導入する。エージェントは、高忠実度360度ビジュアルイメージとセマンティック特徴を統一してレンダリングすることで、将来の環境をよりよく探索することができる。 UnitedVLNは既存のVLN-CEベンチマークで最先端の手法より優れている。
論文参考訳（メタデータ） (2024-11-25T02:44:59Z)
NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation [15.628308089720269]
Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としている。本研究では,大規模な視覚言語モデルによって駆動される初の都市型UAV実施ナビゲーションモデルであるNavAgentを提案する。我々は、きめ細かいランドマークを識別し、言語化できるランドマークの視覚認識器を構築した。 NavAgent-Landmark2Kは、ランドマークのための視覚認識装置を訓練するために、実際の街路シーンのための、最初のきめ細かいランドマークデータセットである。
論文参考訳（メタデータ） (2024-11-13T12:51:49Z)
Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology [38.2096731046639]
UAV視覚言語ナビゲーションにおける最近の取り組みは、主に地上ベースのVLN設定を採用する。プラットフォーム,ベンチマーク,方法論という3つの観点からのソリューションを提案する。
論文参考訳（メタデータ） (2024-10-09T17:29:01Z)
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs [95.8010627763483]
モビリティVLAは、環境理解と長文VLMの常識推論能力を組み合わせた、階層的なビジョン・ランゲージ・アクション(VLA)ナビゲーションポリシーである。従来未解決であったマルチモーダル命令に対して,モビリティVLAはエンドツーエンドの成功率が高いことを示す。
論文参考訳（メタデータ） (2024-07-10T15:49:07Z)
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation [23.72290930234063]
NaVidは、ヴィジュアル・アンド・ランゲージナビゲーションのためのビデオベースの大型視覚言語モデル(VLM)である。 NaVidはシミュレーション環境と現実世界で最先端のパフォーマンスを実現し、優れたクロスデータセットとSim2Real転送を実現している。
論文参考訳（メタデータ） (2024-02-24T16:39:16Z)
SayNav: Grounding Large Language Models for Dynamic Planning to Navigation in New Environments [14.179677726976056]
SayNavは、Large Language Models(LLM)からの人間の知識を活用して、複雑なナビゲーションタスクを効率的に一般化する新しいアプローチである。 SayNavは最先端の結果を達成し、成功率の点で強烈な地道的な仮定でオラクルベースのベースラインを8%以上上回ります。
論文参考訳（メタデータ） (2023-09-08T02:24:37Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Aerial View Goal Localization with Reinforcement Learning [6.165163123577484]
本稿では,実際のUAVへのアクセスを必要とせずに,SAR(Search-and-Rescue)のようなセットアップをエミュレートするフレームワークを提案する。この枠組みでは、エージェントが空中画像(探索領域のプロキシ)上で動作し、視覚的手がかりとして記述されたゴールのローカライズを行う。 AiRLocは、探索(遠方目標探索)と搾取(近方目標の局所化)を分離する強化学習(RL)に基づくモデルである。
論文参考訳（メタデータ） (2022-09-08T10:27:53Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)
Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。 VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文参考訳（メタデータ） (2020-11-07T16:49:04Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。