論文の概要: Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark
- arxiv url: http://arxiv.org/abs/2503.10692v1
- Date: Wed, 12 Mar 2025 03:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:06:10.937640
- Title: Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark
- Title(参考訳): 低高度多視点観測条件下でのUAV視覚像定位のための最良の方法:ベンチマーク
- Authors: Yibin Ye, Xichao Teng, Shuo Chen, Zhang Li, Leqi Liu, Qifeng Yu, Tao Tan,
- Abstract要約: 高度の低い多視点UAV AVLは、極端な視点の変化による大きな課題を提示する。
このベンチマークでは、低高度多視点UAV AVLの課題を明らかにし、将来の研究に貴重なガイダンスを提供した。
- 参考スコア(独自算出の注目度): 6.693781685584959
- License:
- Abstract: Absolute Visual Localization (AVL) enables Unmanned Aerial Vehicle (UAV) to determine its position in GNSS-denied environments by establishing geometric relationships between UAV images and geo-tagged reference maps. While many previous works have achieved AVL with image retrieval and matching techniques, research in low-altitude multi-view scenarios still remains limited. Low-altitude Multi-view condition presents greater challenges due to extreme viewpoint changes. To explore the best UAV AVL approach in such condition, we proposed this benchmark. Firstly, a large-scale Low-altitude Multi-view dataset called AnyVisLoc was constructed. This dataset includes 18,000 images captured at multiple scenes and altitudes, along with 2.5D reference maps containing aerial photogrammetry maps and historical satellite maps. Secondly, a unified framework was proposed to integrate the state-of-the-art AVL approaches and comprehensively test their performance. The best combined method was chosen as the baseline and the key factors that influencing localization accuracy are thoroughly analyzed based on it. This baseline achieved a 74.1% localization accuracy within 5m under Low-altitude, Multi-view conditions. In addition, a novel retrieval metric called PDM@K was introduced to better align with the characteristics of the UAV AVL task. Overall, this benchmark revealed the challenges of Low-altitude, Multi-view UAV AVL and provided valuable guidance for future research. The dataset and codes are available at https://github.com/UAV-AVL/Benchmark
- Abstract(参考訳): AAVL(Absolute Visual Localization)により、無人航空機(UAV)は、UAV画像とジオタグ付き参照マップの幾何学的関係を確立することにより、GNSSによる環境におけるその位置を決定することができる。
画像検索とマッチング技術で多くの先行研究がAVLを達成しているが、低高度マルチビューシナリオの研究は依然として限られている。
低高度マルチビュー条件は、極端な視点の変化による大きな課題を示す。
このような条件下でのUAV AVLの最良のアプローチを探るため,我々はこのベンチマークを提案した。
まず、AnyVisLocと呼ばれる大規模低高度マルチビューデータセットを構築した。
このデータセットには、複数のシーンと高度で撮影された18,000の画像と、航空写真地図と歴史的衛星地図を含む2.5Dの参照マップが含まれている。
第二に、最先端のAVLアプローチを統合し、その性能を包括的にテストする統合フレームワークが提案された。
最適な組み合わせ法がベースラインとして選択され,それに基づいて局所化精度に影響を与える重要な要因を網羅的に分析した。
この基準線は5m以内の低高度マルチビュー条件下で74.1%のローカライゼーション精度を達成した。
さらに,UAV AVLタスクの特性に合わせて,PDM@Kと呼ばれる新しい検索指標を導入した。
全体として、このベンチマークは、低高度多視点UAV AVLの課題を明らかにし、将来の研究に貴重なガイダンスを提供した。
データセットとコードはhttps://github.com/UAV-AVL/Benchmarkで公開されている。
関連論文リスト
- GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - VQ-Map: Bird's-Eye-View Map Layout Estimation in Tokenized Discrete Space via Vector Quantization [108.68014173017583]
Bird's-eye-view (BEV) マップのレイアウト推定には、エゴ車の周囲の環境要素のセマンティクスを正確に完全に理解する必要がある。
本稿では,Vector Quantized-Variational AutoEncoder (VQ-VAE) に似た生成モデルを用いて,トークン化された離散空間における高レベルのBEVセマンティクスの事前知識を取得することを提案する。
得られたBEVトークンには,異なるBEV要素のセマンティクスを包含したコードブックが組み込まれているため,スパースバックボーン画像特徴と得られたBEVトークンとを直接一致させることができる。
論文 参考訳(メタデータ) (2024-11-03T16:09:47Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization [20.37586403749362]
大規模なUAV-VisLocデータセットを提示し、UAV視覚的ローカライゼーション作業を容易にする。
われわれのデータセットには6,742枚のドローン画像と11個の衛星マップが含まれており、緯度、経度、高度、捕獲日などのメタデータがある。
論文 参考訳(メタデータ) (2024-05-20T10:24:10Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - Multiview Aerial Visual Recognition (MAVREC): Can Multi-view Improve
Aerial Visual Perception? [57.77643186237265]
我々は、異なる視点から同期シーンを記録するビデオデータセットであるMultiview Aerial Visual RECgnition(MAVREC)を提示する。
MAVRECは約2.5時間、業界標準の2.7K解像度ビデオシーケンス、0.5万フレーム以上のフレーム、11万の注釈付きバウンディングボックスで構成されている。
これにより、MAVRECは地上および空中ビューのデータセットとして最大であり、ドローンベースのデータセットの中では4番目に大きい。
論文 参考訳(メタデータ) (2023-12-07T18:59:14Z) - SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using
Vision-Language Models [33.814335088752046]
SATellite ImageNet(SATIN)は,既存の27のリモートセンシングデータセットから算出したメタデータセットである。
SATIN上での広帯域ビジョン言語(VL)モデルのゼロショット転送分類能力を総合的に評価する。
SATINは,評価する上で最強のベンチマークであり,分類精度は52.0%である。
論文 参考訳(メタデータ) (2023-04-23T11:23:05Z) - UAVStereo: A Multiple Resolution Dataset for Stereo Matching in UAV
Scenarios [0.6524460254566905]
本稿では,UAVStereoと呼ばれる多解像度UAVシナリオデータセットを構築し,34k以上のステレオ画像ペアが3つの典型的なシーンをカバーしている。
本稿では,UAVシナリオにおける課題に対処する際の限界を明らかにするとともに,従来型および最先端のディープラーニング手法の評価を行う。
論文 参考訳(メタデータ) (2023-02-20T16:45:27Z) - Beyond Cross-view Image Retrieval: Highly Accurate Vehicle Localization
Using Satellite Image [91.29546868637911]
本稿では,地上画像と架空衛星地図とをマッチングすることにより,車載カメラのローカライゼーションの問題に対処する。
鍵となる考え方は、タスクをポーズ推定として定式化し、ニューラルネットベースの最適化によってそれを解くことである。
標準自動運転車のローカライゼーションデータセットの実験により,提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2022-04-10T19:16:58Z) - Vision-Based UAV Self-Positioning in Low-Altitude Urban Environments [20.69412701553767]
無人航空機(UAV)は安定した位置決めのために衛星システムに依存している。
このような状況下では、視覚に基づく技術が代替手段として機能し、UAVの自己配置能力を確実にする。
本稿では,UAV自己配置タスク用に設計された最初の公開データセットであるDenseUAVを提案する。
論文 参考訳(メタデータ) (2022-01-23T07:18:55Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。