論文の概要: Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement
- arxiv url: http://arxiv.org/abs/2510.22582v1
- Date: Sun, 26 Oct 2025 08:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.254111
- Title: Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement
- Title(参考訳): 高精度高効率設計による多視点UAVジオローカライゼーション:多視点リファインメントを用いた階層的蒸留手法
- Authors: Jian Sun, Kangdao Liu, Chi Zhang, Chuangquan Chen, Junge Shen, Chi-Man Vong,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)により、航空画像とジオタグ付き衛星データベースとのマッチングによるUAVローカライゼーションが可能となる。
既存の方法は、リソース集約的なきめ細かい特徴抽出とアライメントに依存している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
- 参考スコア(独自算出の注目度): 47.16612614191333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) enables UAV localization by matching aerial images to geo-tagged satellite databases, which is critical for autonomous navigation in GNSS-denied environments. However, existing methods rely on resource-intensive fine-grained feature extraction and alignment, where multiple branches and modules significantly increase inference costs, limiting their deployment on edge devices. We propose Precision-Focused Efficient Design (PFED), a resource-efficient framework combining hierarchical knowledge transfer and multi-view representation refinement. This innovative method comprises two key components: 1) During training, Hierarchical Distillation paradigm for fast and accurate CVGL (HD-CVGL), coupled with Uncertainty-Aware Prediction Alignment (UAPA) to distill essential information and mitigate the data imbalance without incurring additional inference overhead. 2) During inference, an efficient Multi-view Refinement Module (MRM) leverages mutual information to filter redundant samples and effectively utilize the multi-view data. Extensive experiments show that PFED achieves state-of-the-art performance in both accuracy and efficiency, reaching 97.15\% Recall@1 on University-1652 while being over $5 \times$ more efficient in FLOPs and $3 \times$ faster than previous top methods. Furthermore, PFED runs at 251.5 FPS on the AGX Orin edge device, demonstrating its practical viability for real-time UAV applications. The project is available at https://github.com/SkyEyeLoc/PFED
- Abstract(参考訳): CVGL(Cross-view geo-localization)は、地理タグ付き衛星データベースに航空画像をマッチングすることでUAVのローカライゼーションを可能にする。
しかし、既存の方法はリソース集約的な機能抽出とアライメントに依存しており、複数のブランチとモジュールが推論コストを大幅に増加させ、エッジデバイスへのデプロイメントを制限している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
この革新的な方法は2つの重要な要素から構成される。
1) 訓練中, 高速かつ高精度なCVGL(HD-CVGL)の階層的蒸留パラダイムと不確実性認識アライメント(UAPA)を併用し, 本質的な情報を蒸留し, 追加の推論オーバーヘッドを発生させることなくデータの不均衡を軽減する。
2) 効率的なマルチビューリファインメントモジュール (MRM) は, 相互情報を利用して冗長なサンプルをフィルタリングし, マルチビューデータを効果的に活用する。
大規模な実験により、PFEDは精度と効率の両方で最先端のパフォーマンスを達成し、University-1652で97.15\% Recall@1に達した。
さらに、PFEDはAGX Orinエッジデバイス上で251.5FPSで動作する。
このプロジェクトはhttps://github.com/SkyEyeLoc/PFEDで入手できる。
関連論文リスト
- MCOP: Multi-UAV Collaborative Occupancy Prediction [40.58729551462363]
Current Bird's Eye View (BEV)ベースのアプローチには2つの大きな制限がある。
本稿では,複数UAV共同占有予測フレームワークを提案する。
提案手法は最先端の精度を達成し,既存の協調手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-14T16:17:42Z) - SWA-PF: Semantic-Weighted Adaptive Particle Filter for Memory-Efficient 4-DoF UAV Localization in GNSS-Denied Environments [8.46731803518948]
無人航空機(UAV)の局部化システムは、GNSS(Global Navigation Satellite System)により広範囲に研究されている。
可変高度シナリオのための大規模多高度飛行セグメントデータセット(MAFS)を提案する。
本稿では,これらの制約を克服するために,SWA-PF法を提案する。
論文 参考訳(メタデータ) (2025-09-17T08:05:36Z) - Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection [6.443926939309045]
我々は,データセット構築とモデル革新を組み合わせた完全なUAV指向ソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決する改良されたUAV-Labelエンジンを設計する。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
論文 参考訳(メタデータ) (2025-09-07T10:59:02Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。