論文の概要: Finding Point with Image: A Simple and Efficient Method for UAV
Self-Localization
- arxiv url: http://arxiv.org/abs/2208.06561v2
- Date: Tue, 5 Dec 2023 06:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 20:41:46.118750
- Title: Finding Point with Image: A Simple and Efficient Method for UAV
Self-Localization
- Title(参考訳): 画像によるポイント発見:UAV自己ローカライゼーションの簡便かつ効率的な方法
- Authors: Ming Dai, Enhui Zheng, Zhenhua Feng, Jiahao Chen, Wankou Yang
- Abstract要約: 本稿では、画像を用いたFindering Point with Image(FPI)というエンドツーエンドの位置決めフレームワークを提案する。
FPIは、UAVビュー画像を介して、衛星ビュー画像中のUAVの対応する位置を直接識別することを目的としている。
本フレームワークの実用性を検証するため,UAVと衛星ビューからなるUL14というペアデータセットを構築した。
- 参考スコア(独自算出の注目度): 21.187322738122113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image retrieval has emerged as a prominent solution for the self-localization
task of unmanned aerial vehicles (UAVs). However, this approach involves
complicated pre-processing and post-processing operations, placing significant
demands on both computational and storage resources. To mitigate this issue,
this paper presents an end-to-end positioning framework, namely Finding Point
with Image (FPI), which aims to directly identify the corresponding location of
a UAV in satellite-view images via a UAV-view image. To validate the
practicality of our framework, we construct a paired dataset, namely UL14, that
consists of UAV and satellite views. In addition, we establish two
transformer-based baseline models, Post Fusion and Mix Fusion, for end-to-end
training and inference. Through experiments, we can conclude that fusion in the
backbone network can achieve better performance than later fusion. Furthermore,
considering the singleness of paired images, Random Scale Crop (RSC) is
proposed to enrich the diversity of the paired data. Also, the ratio and weight
of positive and negative samples play a key role in model convergence.
Therefore, we conducted experimental verification and proposed a Weight Balance
Loss (WBL) to weigh the impact of positive and negative samples. Last, our
proposed baseline based on Mix Fusion structure exhibits superior performance
in time and storage efficiency, amounting to just 1/24 and 1/68, respectively,
while delivering comparable or even superior performance compared to the image
retrieval method. The dataset and code will be made publicly available.
- Abstract(参考訳): 画像検索は無人航空機(UAV)の自己ローカライゼーションタスクの顕著な解決策として浮上している。
しかし、このアプローチは複雑な前処理と後処理を伴い、計算資源とストレージ資源の両方にかなりの要求を課す。
本報告では,衛星画像におけるUAVの対応する位置を,UAVビュー画像を介して直接識別することを目的とした,画像付きポイント(FPI)のエンドツーエンド位置決めフレームワークを提案する。
本フレームワークの実用性を検証するため,UAVと衛星ビューからなるUL14というペアデータセットを構築した。
さらに、エンドツーエンドのトレーニングと推論のための2つのトランスフォーマーベースベースラインモデル、Post FusionとMix Fusionを構築した。
実験により、バックボーンネットワークにおける融合は、後続の融合よりも優れた性能が得られると結論付けることができる。
さらに、ペア画像の単一性を考慮して、ペアデータの多様性を高めるためにランダムスケールクロップ(RSC)を提案する。
また、正と負のサンプルの比率と重み付けはモデル収束において重要な役割を果たす。
そこで本研究では, 正および負の試料の影響を評価するために, 重量バランス損失 (WBL) を実験的に検証し, 提案した。
最後に,Mix Fusion 構造をベースとしたベースラインは,画像検索法と同等あるいはそれ以上の性能を達成しつつ,それぞれ1/24 と 1/68 に留まり,時間と記憶効率に優れた性能を示す。
データセットとコードは公開される予定だ。
関連論文リスト
- Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
スコアベースの拡散モデルは、その印象的な経験的成功により、画像に現れる表現の正規候補として現れている。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Cheaper Pre-training Lunch: An Efficient Paradigm for Object Detection [86.0580214485104]
本稿では,オブジェクト検出のための汎用的で効率的な事前学習パラダイムであるMontage事前学習を提案する。
Montage事前トレーニングは、ターゲット検出データセットのみを必要とするが、広く採用されているImageNet事前トレーニングと比較して、計算リソースは1/4しかない。
モンタージュ事前学習の効率と有効性は、MS-COCOデータセットの広範な実験によって検証される。
論文 参考訳(メタデータ) (2020-04-25T16:09:46Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。