論文の概要: Drone Referring Localization: An Efficient Heterogeneous Spatial Feature Interaction Method For UAV Self-Localization
- arxiv url: http://arxiv.org/abs/2208.06561v3
- Date: Wed, 28 Aug 2024 04:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:50:55.872695
- Title: Drone Referring Localization: An Efficient Heterogeneous Spatial Feature Interaction Method For UAV Self-Localization
- Title(参考訳): ドローンのローカライゼーション:UAV自己ローカライゼーションのための効率的な不均一空間特徴相互作用法
- Authors: Ming Dai, Enhui Zheng, Jiahao Chen, Lei Qi, Zhenhua Feng, Wankou Yang,
- Abstract要約: 我々は、Drone Referring Localization(DRL)と呼ばれる、効率的な異種空間特徴相互作用法を提案する。
異なるデータソースを分離して扱う従来の方法とは異なり、DRLは異種特徴の学習可能な相互作用を促進する。
従来のIR法と比較して、DRLはより優れたローカライズ精度(MA@20 + 9.4%)を実現し、計算時間(1/7)とストレージオーバーヘッド(2/3)を大幅に削減した。
- 参考スコア(独自算出の注目度): 22.94589565476653
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image retrieval (IR) has emerged as a promising approach for self-localization in unmanned aerial vehicles (UAVs). However, IR-based methods face several challenges: 1) Pre- and post-processing incur significant computational and storage overhead; 2) The lack of interaction between dual-source features impairs precise spatial perception. In this paper, we propose an efficient heterogeneous spatial feature interaction method, termed Drone Referring Localization (DRL), which aims to localize UAV-view images within satellite imagery. Unlike conventional methods that treat different data sources in isolation, followed by cosine similarity computations, DRL facilitates the learnable interaction of heterogeneous features. To implement the proposed DRL, we design two transformer-based frameworks, Post-Fusion and Mix-Fusion, enabling end-to-end training and inference. Furthermore, we introduce random scale cropping and weight balance loss techniques to augment paired data and optimize the balance between positive and negative sample weights. Additionally, we construct a new dataset, UL14, and establish a benchmark tailored to the DRL framework. Compared to traditional IR methods, DRL achieves superior localization accuracy (MA@20 +9.4\%) while significantly reducing computational time (1/7) and storage overhead (1/3). The dataset and code will be made publicly available. The dataset and code are available at \url{https://github.com/Dmmm1997/DRL} .
- Abstract(参考訳): 画像検索(IR)は無人航空機(UAV)における自己ローカライゼーションのための有望なアプローチとして浮上している。
しかし、IRベースの手法はいくつかの課題に直面している。
1)前処理及び後処理は,重要な計算及び記憶上のオーバーヘッドを引き起こす。
2) 二重音源間の相互作用の欠如は, 正確な空間知覚を損なう。
本稿では,衛星画像中のUAVビュー画像をローカライズすることを目的とした,Drone Referring Localization (DRL) と呼ばれる,効率的な異種空間特徴相互作用手法を提案する。
異なるデータソースを分離して扱う従来の方法とは異なり、DRLは異種特徴の学習可能な相互作用を促進する。
提案するDRLを実装するために,2つのトランスフォーマーベースのフレームワークであるPost-FusionとMix-Fusionを設計し,エンドツーエンドのトレーニングと推論を可能にする。
さらに,ペアデータの拡大と,正と負のサンプル重みのバランスの最適化のために,ランダムスケールトリミングと重みバランス損失手法を導入する。
さらに,新しいデータセットUL14を構築し,DRLフレームワークに適したベンチマークを確立する。
従来のIR法と比較して、DRLはより優れたローカライズ精度(MA@20 + 9.4\%)を実現し、計算時間(1/7)とストレージオーバーヘッド(1/3)を大幅に削減した。
データセットとコードは公開されます。
データセットとコードは \url{https://github.com/Dmmm 1997/DRL} で公開されている。
関連論文リスト
- Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Surrogate-based cross-correlation for particle image velocimetry [4.306143768014157]
本稿では,SBCC(Surrogate-based cross-correlation)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T02:45:42Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。