論文の概要: Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement
- arxiv url: http://arxiv.org/abs/2510.22582v1
- Date: Sun, 26 Oct 2025 08:47:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.254111
- Title: Cross-View UAV Geo-Localization with Precision-Focused Efficient Design: A Hierarchical Distillation Approach with Multi-view Refinement
- Title(参考訳): 高精度高効率設計による多視点UAVジオローカライゼーション:多視点リファインメントを用いた階層的蒸留手法
- Authors: Jian Sun, Kangdao Liu, Chi Zhang, Chuangquan Chen, Junge Shen, Chi-Man Vong,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)により、航空画像とジオタグ付き衛星データベースとのマッチングによるUAVローカライゼーションが可能となる。
既存の方法は、リソース集約的なきめ細かい特徴抽出とアライメントに依存している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
- 参考スコア(独自算出の注目度): 47.16612614191333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) enables UAV localization by matching aerial images to geo-tagged satellite databases, which is critical for autonomous navigation in GNSS-denied environments. However, existing methods rely on resource-intensive fine-grained feature extraction and alignment, where multiple branches and modules significantly increase inference costs, limiting their deployment on edge devices. We propose Precision-Focused Efficient Design (PFED), a resource-efficient framework combining hierarchical knowledge transfer and multi-view representation refinement. This innovative method comprises two key components: 1) During training, Hierarchical Distillation paradigm for fast and accurate CVGL (HD-CVGL), coupled with Uncertainty-Aware Prediction Alignment (UAPA) to distill essential information and mitigate the data imbalance without incurring additional inference overhead. 2) During inference, an efficient Multi-view Refinement Module (MRM) leverages mutual information to filter redundant samples and effectively utilize the multi-view data. Extensive experiments show that PFED achieves state-of-the-art performance in both accuracy and efficiency, reaching 97.15\% Recall@1 on University-1652 while being over $5 \times$ more efficient in FLOPs and $3 \times$ faster than previous top methods. Furthermore, PFED runs at 251.5 FPS on the AGX Orin edge device, demonstrating its practical viability for real-time UAV applications. The project is available at https://github.com/SkyEyeLoc/PFED
- Abstract(参考訳): CVGL(Cross-view geo-localization)は、地理タグ付き衛星データベースに航空画像をマッチングすることでUAVのローカライゼーションを可能にする。
しかし、既存の方法はリソース集約的な機能抽出とアライメントに依存しており、複数のブランチとモジュールが推論コストを大幅に増加させ、エッジデバイスへのデプロイメントを制限している。
階層的な知識伝達と多視点表現の洗練を組み合わせた資源効率の高いフレームワークであるPFED(Precision-Focused Efficient Design)を提案する。
この革新的な方法は2つの重要な要素から構成される。
1) 訓練中, 高速かつ高精度なCVGL(HD-CVGL)の階層的蒸留パラダイムと不確実性認識アライメント(UAPA)を併用し, 本質的な情報を蒸留し, 追加の推論オーバーヘッドを発生させることなくデータの不均衡を軽減する。
2) 効率的なマルチビューリファインメントモジュール (MRM) は, 相互情報を利用して冗長なサンプルをフィルタリングし, マルチビューデータを効果的に活用する。
大規模な実験により、PFEDは精度と効率の両方で最先端のパフォーマンスを達成し、University-1652で97.15\% Recall@1に達した。
さらに、PFEDはAGX Orinエッジデバイス上で251.5FPSで動作する。
このプロジェクトはhttps://github.com/SkyEyeLoc/PFEDで入手できる。
関連論文リスト
- MCOP: Multi-UAV Collaborative Occupancy Prediction [40.58729551462363]
Current Bird's Eye View (BEV)ベースのアプローチには2つの大きな制限がある。
本稿では,複数UAV共同占有予測フレームワークを提案する。
提案手法は最先端の精度を達成し,既存の協調手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-14T16:17:42Z) - InstaGeo: Compute-Efficient Geospatial Machine Learning from Data to Deployment [3.6927415209865533]
InstaGeoは、生の衛星画像をモデル対応のデータセットに変換するためのオープンソースのフレームワークである。
InstaGeoはどのようにして生画像をモデル対応のデータセットに変換し、コンパクトで計算効率の良いモデルを生成するかを示す。
我々はまた、InstaGeoが研究グレードのGFMを、リアルタイムで大規模な地球観測のための実用的で低炭素のツールに変える方法も示している。
論文 参考訳(メタデータ) (2025-10-07T06:57:15Z) - SWA-PF: Semantic-Weighted Adaptive Particle Filter for Memory-Efficient 4-DoF UAV Localization in GNSS-Denied Environments [8.46731803518948]
無人航空機(UAV)の局部化システムは、GNSS(Global Navigation Satellite System)により広範囲に研究されている。
可変高度シナリオのための大規模多高度飛行セグメントデータセット(MAFS)を提案する。
本稿では,これらの制約を克服するために,SWA-PF法を提案する。
論文 参考訳(メタデータ) (2025-09-17T08:05:36Z) - Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection [6.443926939309045]
我々は,データセット構築とモデル革新を組み合わせた完全なUAV指向ソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決する改良されたUAV-Labelエンジンを設計する。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
論文 参考訳(メタデータ) (2025-09-07T10:59:02Z) - GeoLocSFT: Efficient Visual Geolocation via Supervised Fine-Tuning of Multimodal Foundation Models [4.956977275061966]
GeoLocSFTは、地理的に多様なMR600kデータセットから慎重に選択されたイメージ-GPSペアでトレーニングされています。
この制限されたデータにもかかわらず、私たちのSFT中心のアプローチはベースラインモデルを大幅に改善します。
本研究は,惑星規模の画像測位における高品質の監督と効率的なSFTの能力を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-02T03:16:19Z) - Co-SemDepth: Fast Joint Semantic Segmentation and Depth Estimation on Aerial Images [0.9883261192383611]
本稿では,空飛ぶロボットの単眼カメラを用いて,非構造環境における深度とセマンティックマップの予測を行う。
本稿では,2つのタスクを正確かつ迅速に実行可能な共同ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-03-23T08:25:07Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文 参考訳(メタデータ) (2025-03-11T00:38:54Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - GeoCLIP: Clip-Inspired Alignment between Locations and Images for
Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。
既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。
画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文 参考訳(メタデータ) (2023-09-27T20:54:56Z) - A Gis Aided Approach for Geolocalizing an Unmanned Aerial System Using
Deep Learning [0.4297070083645048]
本稿では,GPS信号の劣化や拒否時にUASをジオローカライズする手法を提案する。
UASは、プラットフォームが飛ぶとリアルタイム画像を取得することができる、下向きのカメラをプラットフォーム上に備えているので、ジオローカライゼーションを実現するために、最新のディープラーニング技術を適用します。
我々は,OpenStreetMap (OSM) からGIS情報を抽出し,意味的に一致した特徴をビルディングクラスとランドスケープクラスに分割する。
論文 参考訳(メタデータ) (2022-08-25T17:51:15Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。