論文の概要: Finding Point with Image: An End-to-End Benchmark for Vision-based UAV
Localization
- arxiv url: http://arxiv.org/abs/2208.06561v1
- Date: Sat, 13 Aug 2022 03:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:46:40.731817
- Title: Finding Point with Image: An End-to-End Benchmark for Vision-based UAV
Localization
- Title(参考訳): 画像によるポイント発見:視覚に基づくUAVローカライゼーションのためのエンドツーエンドベンチマーク
- Authors: Ming Dai, Jiahao Chen, Yusheng Lu, Wenlong Hao, Enhui Zheng
- Abstract要約: 過去には、画像検索がクロスビュー測位とUAV視像定位タスクの主流のソリューションであった。
我々は、ソースBの画像(衛星ビュー)の対応する位置を、ソースAの画像(ドローンビュー)を通して直接見つけることを目的とした、画像付きポイント(FPI)のエンドツーエンド位置決め方式を提案する。
- 参考スコア(独自算出の注目度): 4.462334751640166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past, image retrieval was the mainstream solution for cross-view
geolocation and UAV visual localization tasks. In a nutshell, the way of image
retrieval is to obtain the final required information, such as GPS, through a
transitional perspective. However, the way of image retrieval is not completely
end-to-end. And there are some redundant operations such as the need to prepare
the feature library in advance, and the sampling interval problem of the
gallery construction, which make it difficult to implement large-scale
applications. In this article we propose an end-to-end positioning scheme,
Finding Point with Image (FPI), which aims to directly find the corresponding
location in the image of source B (satellite-view) through the image of source
A (drone-view). To verify the feasibility of our framework, we construct a new
dataset (UL14), which is designed to solve the UAV visual self-localization
task. At the same time, we also build a transformer-based baseline to achieve
end-to-end training. In addition, the previous evaluation methods are no longer
applicable under the framework of FPI. Thus, Metre-level Accuracy (MA) and
Relative Distance Score (RDS) are proposed to evaluate the accuracy of UAV
localization. At the same time, we preliminarily compare FPI and image
retrieval method, and the structure of FPI achieves better performance in both
speed and efficiency. In particular, the task of FPI remains great challenges
due to the large differences between different views and the drastic spatial
scale transformation.
- Abstract(参考訳): 過去には、画像検索がクロスビュー測位とUAV視像定位タスクの主流のソリューションであった。
簡単に言えば、画像検索の方法は、トランジショナルな視点でGPSのような最終的な必要な情報を取得することである。
しかし、画像検索は完全にエンドツーエンドではない。
また,事前に機能ライブラリを準備する必要があること,ギャラリー構築のサンプリング間隔の問題など,大規模アプリケーションの実装が困難になるような冗長な操作もいくつかある。
本稿では、ソースBの画像(衛星ビュー)の対応する位置を、ソースAの画像(ドローンビュー)を介して直接見つけることを目的とした、画像付きポイント(FPI)のエンドツーエンド位置決め方式を提案する。
フレームワークの実現可能性を検証するため,UAV視覚自己ローカライゼーションタスクを解決するために,新しいデータセット(UL14)を構築した。
同時に、エンドツーエンドのトレーニングを実現するためのトランスフォーマーベースのベースラインも構築しています。
さらに、従来の評価手法はFPIの枠組みではもはや適用されない。
したがって、UAVの精度を評価するために、メートルレベル精度(MA)と相対距離スコア(RDS)を提案する。
同時に、FPIと画像検索法を予備的に比較し、FPIの構造は、速度と効率の両方で優れた性能を実現する。
特にfpiの課題は、異なる視点と劇的な空間スケール変換の間に大きな違いがあるため、大きな課題のままである。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - DREAM+: Efficient Dataset Distillation by Bidirectional Representative
Matching [40.18223537419178]
本稿では,DREAM+と呼ばれる新しいデータセットマッチング手法を提案する。
DREAM+は、蒸留の繰り返し回数を15回以上減らし、性能に影響を与えない。
十分なトレーニング時間があれば、DREAM+はパフォーマンスをさらに向上し、最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2023-10-23T15:55:30Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。