論文の概要: Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog
Navigation
- arxiv url: http://arxiv.org/abs/2308.11561v1
- Date: Tue, 22 Aug 2023 16:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:17:59.488810
- Title: Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog
Navigation
- Title(参考訳): 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ
- Authors: Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang
- Abstract要約: 本報告では, AVDN Challenge 2023における入賞方法について述べる。
このタスクでは、ドローンエージェントが対話履歴と航空観測履歴を関連付ける必要がある。
ドローンエージェントのクロスモーダルグラウンド機能を改善するため、我々は、A-Grounded GraphAware Transformer (TG-GAT)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.25089706534778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report details the method of the winning entry of the AVDN Challenge in
ICCV 2023. The competition addresses the Aerial Navigation from Dialog History
(ANDH) task, which requires a drone agent to associate dialog history with
aerial observations to reach the destination. For better cross-modal grounding
abilities of the drone agent, we propose a Target-Grounded Graph-Aware
Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a
graph-aware transformer to capture spatiotemporal dependency, which is
beneficial for navigation state tracking and robust action planning. TG-GAT
first leverages a graph-aware transformer to capture spatiotemporal
dependencies for more robust action planning. In addition, an auxiliary visual
grounding task is devised to boost the agent's awareness of referred landmarks.
Moreover, a hybrid augmentation strategy based on large language models is
utilized to mitigate data scarcity limitations. Our TG-GAT framework won the
AVDN Challenge 2023, with 2.2% and 3.0% absolute improvements over the baseline
on SPL and SR metrics, respectively. The code is available at
https://github.com/yifeisu/avdn-challenge.
- Abstract(参考訳): 本報告では,ICCV 2023におけるAVDNチャレンジの入賞方法について詳述する。
このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。
ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。
具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性を捕捉し、ナビゲーション状態の追跡とロバストなアクションプランニングに有用である。
TG-GATはまずグラフ対応トランスフォーマーを利用して、より堅牢なアクション計画のための時空間依存性をキャプチャする。
加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。
さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。
我々のTG-GATフレームワークは2023年のAVDNチャレンジで優勝し、それぞれSPLとSRの基準よりも2.2%と3.0%の絶対的な改善があった。
コードはhttps://github.com/yifeisu/avdn-challengeで入手できる。
関連論文リスト
- SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。
交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。
低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文 参考訳(メタデータ) (2024-10-26T05:09:20Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - Multi-model fusion for Aerial Vision and Dialog Navigation based on
human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。
本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文 参考訳(メタデータ) (2023-08-27T10:32:52Z) - A3D: Adaptive, Accurate, and Autonomous Navigation for Edge-Assisted
Drones [12.439787085435661]
本稿では,エッジサーバによるドローンナビゲーションフレームワークであるA3Dを提案する。
A3Dは、非適応的なソリューションと比較して、エンドツーエンドのレイテンシを28.06%削減し、フライト距離を27.28%まで拡張することができる。
論文 参考訳(メタデータ) (2023-07-19T10:23:28Z) - SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。
提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。
軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文 参考訳(メタデータ) (2023-03-08T05:01:00Z) - TransVisDrone: Spatio-Temporal Transformer for Vision-based
Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。
既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。
計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文 参考訳(メタデータ) (2022-10-16T03:05:13Z) - 1st Place Solutions for RxR-Habitat Vision-and-Language Navigation
Competition (CVPR 2022) [28.5740809300599]
連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。
提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。
我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
論文 参考訳(メタデータ) (2022-06-23T10:36:53Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。
密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。
3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-30T16:39:22Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。