論文の概要: Aerial Vision-and-Dialog Navigation
- arxiv url: http://arxiv.org/abs/2205.12219v3
- Date: Thu, 1 Jun 2023 06:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 02:01:46.379839
- Title: Aerial Vision-and-Dialog Navigation
- Title(参考訳): 航空ビジョン・アンド・ダイアログナビゲーション
- Authors: Yue Fan, Winson Chen, Tongzhou Jiang, Chun Zhou, Yi Zhang, Xin Eric
Wang
- Abstract要約: 本稿では,Aerial Vision-and-Dialog Navigation (AVDN)を紹介した。
連続した環境でドローンシミュレータを構築し、3k以上の航法軌跡を記録した新しいAVDNデータセットを収集する。
本研究では,ナビゲーション経路と人的注意の両方を予測するための効果的なヒューマンアテンション支援変換モデル(HAA-Transformer)を提案する。
- 参考スコア(独自算出の注目度): 10.596163697911525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to converse with humans and follow natural language commands is
crucial for intelligent unmanned aerial vehicles (a.k.a. drones). It can
relieve people's burden of holding a controller all the time, allow
multitasking, and make drone control more accessible for people with
disabilities or with their hands occupied. To this end, we introduce Aerial
Vision-and-Dialog Navigation (AVDN), to navigate a drone via natural language
conversation. We build a drone simulator with a continuous photorealistic
environment and collect a new AVDN dataset of over 3k recorded navigation
trajectories with asynchronous human-human dialogs between commanders and
followers. The commander provides initial navigation instruction and further
guidance by request, while the follower navigates the drone in the simulator
and asks questions when needed. During data collection, followers' attention on
the drone's visual observation is also recorded. Based on the AVDN dataset, we
study the tasks of aerial navigation from (full) dialog history and propose an
effective Human Attention Aided Transformer model (HAA-Transformer), which
learns to predict both navigation waypoints and human attention.
- Abstract(参考訳): 人間と会話し、自然言語コマンドに従う能力は、インテリジェントな無人航空機(ドローン)にとって不可欠である。
コントローラーを常に持ち続けることの負担を軽減し、マルチタスクを可能にし、障害のある人や手を使ってドローンの制御をより容易に行えるようにする。
この目的のために,Aerial Vision-and-Dialog Navigation (AVDN)を導入し,自然言語による会話を通じてドローンをナビゲートする。
我々は、連続したフォトリアリスティック環境を備えたドローンシミュレータを構築し、3k以上のナビゲーショントラジェクトリの新たなAVDNデータセットを、指揮官とフォロワー間の非同期な人間と人間の対話で収集する。
コマンドは初期ナビゲーションの指示と要求によるガイダンスを提供するが、フォロワーはシミュレータでドローンをナビゲートし、必要なときに質問する。
データ収集中、ドローンの視覚的観察に対するフォロワーの注意も記録されている。
AVDNデータセットに基づいて、(フル)ダイアログ履歴から空中ナビゲーションのタスクを調査し、ナビゲーションの経路と人間の注意の両方を予測する効果的なヒューマンアテンション支援トランスフォーマーモデル(HAA-Transformer)を提案する。
関連論文リスト
- CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。
われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。
本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:44:25Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Vision-based Drone Flocking in Outdoor Environments [9.184987303791292]
このレターでは、ドローン群に対する視覚に基づく検出と追跡アルゴリズムを提案する。
我々は畳み込みニューラルネットワークを用いてクワッドコプターの近傍のエージェントをリアルタイムで検出・ローカライズする。
背景が乱雑で照明が難しいにもかかわらず、ドローンは屋外環境で安全に航行できることが示される。
論文 参考訳(メタデータ) (2020-12-02T14:44:40Z) - Relative Drone-Ground Vehicle Localization using LiDAR and Fisheye
Cameras through Direct and Indirect Observations [0.0]
本稿では,LiDARカメラを用いたドローンと地上車両間の相対ポーズ推定手法を提案する。
本稿では,LiDARを用いたドローン検出・追跡のための動的適応カーネルベース手法を提案する。
実験では、ドローンの高速な初期検出とリアルタイム追跡を実現しました。
論文 参考訳(メタデータ) (2020-11-13T16:41:55Z) - Learn by Observation: Imitation Learning for Drone Patrolling from
Videos of A Human Navigator [22.06785798356346]
本研究では,人間航法士が地上でどのように行うかを観察し,模擬することにより,ドローンに空中パトロールを学ばせることを提案する。
観察プロセスは、フレーム間の幾何一貫性を利用してデータの自動収集とアノテーションを可能にする。
アノテーション付きデータに基づいて、新たに設計されたニューラルネットワークをトレーニングし、適切な方向と翻訳を予測する。
論文 参考訳(メタデータ) (2020-08-30T15:20:40Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z) - Detection and Tracking Meet Drones Challenge [131.31749447313197]
本稿では、オブジェクト検出・追跡データセットとベンチマークのレビューを行い、手動アノテーションによる大規模ドローンによるオブジェクト検出・追跡データセットの収集の課題について論じる。
当社のVisDroneデータセットは、中国北部から南部にかけての14の都市部と郊外部で収集されたものです。
本稿では,ドローンにおける大規模物体検出・追跡の現場の現状を詳細に分析し,今後の方向性を提案するとともに,課題を結論づける。
論文 参考訳(メタデータ) (2020-01-16T00:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。