Fugu-MT 論文翻訳(概要): Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation

論文の概要: Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation

arxiv url: http://arxiv.org/abs/2308.11561v1
Date: Tue, 22 Aug 2023 16:45:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 17:17:59.488810
Title: Target-Grounded Graph-Aware Transformer for Aerial Vision-and-Dialog Navigation
Title（参考訳）: 航空ビジョン・ダイアログナビゲーションのための目標位置グラフ認識トランスフォーマ
Authors: Yifei Su, Dong An, Yuan Xu, Kehan Chen, Yan Huang
Abstract要約: 本報告では, AVDN Challenge 2023における入賞方法について述べる。このタスクでは、ドローンエージェントが対話履歴と航空観測履歴を関連付ける必要がある。ドローンエージェントのクロスモーダルグラウンド機能を改善するため、我々は、A-Grounded GraphAware Transformer (TG-GAT)フレームワークを提案する。
参考スコア（独自算出の注目度）: 10.25089706534778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This report details the method of the winning entry of the AVDN Challenge in ICCV 2023. The competition addresses the Aerial Navigation from Dialog History (ANDH) task, which requires a drone agent to associate dialog history with aerial observations to reach the destination. For better cross-modal grounding abilities of the drone agent, we propose a Target-Grounded Graph-Aware Transformer (TG-GAT) framework. Concretely, TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependency, which is beneficial for navigation state tracking and robust action planning. TG-GAT first leverages a graph-aware transformer to capture spatiotemporal dependencies for more robust action planning. In addition, an auxiliary visual grounding task is devised to boost the agent's awareness of referred landmarks. Moreover, a hybrid augmentation strategy based on large language models is utilized to mitigate data scarcity limitations. Our TG-GAT framework won the AVDN Challenge 2023, with 2.2% and 3.0% absolute improvements over the baseline on SPL and SR metrics, respectively. The code is available at https://github.com/yifeisu/avdn-challenge.
Abstract（参考訳）: 本報告では,ICCV 2023におけるAVDNチャレンジの入賞方法について詳述する。このコンペティションは、ドローンエージェントが対話履歴と空中観測を関連づけて目的地に到達する必要がある、ANDH(Aerial Navigation from Dialog History)タスクに対処する。ドローンエージェントのクロスモーダルグラウンド機能を改善するため,TG-GAT(Target-Grounded Graph-Aware Transformer)フレームワークを提案する。具体的には、TG-GATはまずグラフ対応トランスフォーマーを利用して時空間依存性を捕捉し、ナビゲーション状態の追跡とロバストなアクションプランニングに有用である。 TG-GATはまずグラフ対応トランスフォーマーを利用して、より堅牢なアクション計画のための時空間依存性をキャプチャする。加えて、エージェントが参照するランドマークに対する認識を高めるために補助的な視覚接地タスクが考案されている。さらに,大規模言語モデルに基づくハイブリッド拡張戦略を用いて,データ不足の軽減を図る。我々のTG-GATフレームワークは2023年のAVDNチャレンジで優勝し、それぞれSPLとSRの基準よりも2.2%と3.0%の絶対的な改善があった。コードはhttps://github.com/yifeisu/avdn-challengeで入手できる。

関連論文リスト

CGTrack: Cascade Gating Network with Hierarchical Feature Aggregation for UAV Tracking [20.14331144617911]
本稿では,ネットワーク容量を拡大する明示的かつ暗黙的な手法を組み合わせた新しいUAVトラッカーであるCGTrackを紹介する。 3つの挑戦的なUAV追跡ベンチマークの実験は、CGTrackが高速に動作しながら最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-09T10:27:01Z)
Aerial Vision-and-Language Navigation with Grid-based View Selection and Map Construction [102.70482302750897]
Aerial Vision-and-Language Navigation (Aerial VLN)は、人間の指示に従って空中3D環境をナビゲートする無人航空機エージェントの取得を目的としている。より長い航法、より複雑な3Dシーン、垂直アクションと水平アクションの相互作用の無視により、従来の手法はうまく機能しない。グリッドベースのビュー選択タスクとして空のVLN動作予測を定式化する,グリッドベースのビュー選択フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-14T05:20:43Z)
Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文参考訳（メタデータ） (2025-03-10T07:00:07Z)
SFTrack: A Robust Scale and Motion Adaptive Algorithm for Tracking Small and Fast Moving Objects [2.9803250365852443]
本稿では,無人航空機(UAV)映像における多物体追跡の問題に対処する。交通監視システムや警察によるリアルタイム容疑者追跡など、様々なUAVアプリケーションにおいて重要な役割を果たしている。低信頼度検出から対象物体の追跡を開始する新しい追跡戦略を提案する。
論文参考訳（メタデータ） (2024-10-26T05:09:20Z)
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。 GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文参考訳（メタデータ） (2024-04-09T20:40:00Z)
GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2024-03-18T09:56:48Z)
Multi-model fusion for Aerial Vision and Dialog Navigation based on human attention aids [69.98258892165767]
本稿では,2023年ICCV会話史のための航空航法課題について述べる。本稿では,人間注意支援型トランスフォーマモデル(HAA-Transformer)と人間注意支援型LSTMモデル(HAA-LSTM)の融合訓練方法を提案する。
論文参考訳（メタデータ） (2023-08-27T10:32:52Z)
A3D: Adaptive, Accurate, and Autonomous Navigation for Edge-Assisted Drones [12.439787085435661]
本稿では,エッジサーバによるドローンナビゲーションフレームワークであるA3Dを提案する。 A3Dは、非適応的なソリューションと比較して、エンドツーエンドのレイテンシを28.06%削減し、フライト距離を27.28%まで拡張することができる。
論文参考訳（メタデータ） (2023-07-19T10:23:28Z)
SGDViT: Saliency-Guided Dynamic Vision Transformer for UAV Tracking [12.447854608181833]
本研究は、UAV追跡のための新しいサリエンシ誘導動的視覚変換器(SGDViT)を提案する。提案手法は,クロスコリレーション操作を洗練させるために,タスク固有の新たなオブジェクト・サリエンシ・マイニング・ネットワークを設計する。軽量な塩分フィルタリング変換器は、さらに塩分情報を洗練し、外観情報に焦点を当てる。
論文参考訳（メタデータ） (2023-03-08T05:01:00Z)
TransVisDrone: Spatio-Temporal Transformer for Vision-based Drone-to-Drone Detection in Aerial Videos [57.92385818430939]
視覚的フィードを用いたドローンからドローンへの検知は、ドローンの衝突の検出、ドローンの攻撃の検出、他のドローンとの飛行の調整など、重要な応用がある。既存の手法は計算コストがかかり、非エンドツーエンドの最適化に追随し、複雑なマルチステージパイプラインを持つため、エッジデバイス上でのリアルタイムデプロイメントには適さない。計算効率を向上したエンドツーエンドのソリューションを提供する,シンプルで効果的なフレームワークであるitTransVisDroneを提案する。
論文参考訳（メタデータ） (2022-10-16T03:05:13Z)
1st Place Solutions for RxR-Habitat Vision-and-Language Navigation Competition (CVPR 2022) [28.5740809300599]
連続環境における視覚・言語ナビゲーション(VLN-CE)問題に対するモジュール型計画・制御手法を提案する。提案モデルは,候補経路予測器(CWP),履歴拡張プランナー,試行制御器の3つのモジュールから構成される。我々のモデルは2022年のRxR-Habitatコンペティションで優勝し、NDTWおよびSRメトリクスの既存手法に比べて48%と90%の相対的な改善があった。
論文参考訳（メタデータ） (2022-06-23T10:36:53Z)
An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。 ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文参考訳（メタデータ） (2022-04-17T09:27:45Z)
Dense Scene Multiple Object Tracking with Box-Plane Matching [73.54369833671772]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要なタスクである。密集したシーンにおけるMOT性能を改善するために,Box-Plane Matching (BPM)法を提案する。 3つのモジュールの有効性により、ACM MM Grand Challenge HiEve 2020において、私たちのチームはトラック1のリーダーボードで1位を獲得しました。
論文参考訳（メタデータ） (2020-07-30T16:39:22Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。