論文の概要: MobileGeo: Exploring Hierarchical Knowledge Distillation for Resource-Efficient Cross-view Drone Geo-Localization
- arxiv url: http://arxiv.org/abs/2510.22582v2
- Date: Wed, 05 Nov 2025 02:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 16:07:40.169806
- Title: MobileGeo: Exploring Hierarchical Knowledge Distillation for Resource-Efficient Cross-view Drone Geo-Localization
- Title(参考訳): MobileGeo: 資源効率の良いクロスビュードローンジオローカライゼーションのための階層的知識蒸留
- Authors: Jian Sun, Kangdao Liu, Chi Zhang, Chuangquan Chen, Junge Shen, Chi-Man Vong,
- Abstract要約: クロスビューなジオローカライゼーションにより、航空画像とジオタグ付き衛星データベースとのマッチングによるドローンのローカライゼーションが可能になる。
MobileGeoは、デバイス上の効率的なCVGL用に設計されたモバイルフレンドリーなフレームワークである。
MobileGeoはNVIDIA AGX Orinエッジデバイス上で251.5FPSで動作する。
- 参考スコア(独自算出の注目度): 47.16612614191333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-view geo-localization (CVGL) enables drone localization by matching aerial images to geo-tagged satellite databases, which is critical for autonomous navigation in GNSS-denied environments. However, existing methods rely on resource-intensive feature alignment and multi-branch architectures, incurring high inference costs that limit their deployment on mobile edge devices. We propose MobileGeo, a mobile-friendly framework designed for efficient on-device CVGL. MobileGeo achieves its efficiency through two key components: 1) During training, a Hierarchical Distillation (HD-CVGL) paradigm, coupled with Uncertainty-Aware Prediction Alignment (UAPA), distills essential information into a compact model without incurring inference overhead. 2) During inference, an efficient Multi-view Selection Refinement Module (MSRM) leverages mutual information to filter redundant views and reduce computational load. Extensive experiments demonstrate that MobileGeo outperforms previous state-of-the-art methods, achieving a 4.19\% improvement in AP on University-1652 dataset while being over 5$\times$ more efficient in FLOPs and 3$\times$ faster. Crucially, MobileGeo runs at 251.5 FPS on an NVIDIA AGX Orin edge device, demonstrating its practical viability for real-time on-device drone geo-localization.
- Abstract(参考訳): クロスビュージオローカライゼーション (CVGL) は、GNSSの衛星画像とジオタグ付き衛星データベースをマッチングすることで、ドローンのローカライゼーションを可能にする。
しかし、既存の手法はリソース集約的な機能アライメントとマルチブランチアーキテクチャに依存しており、モバイルエッジデバイスへのデプロイメントを制限する高い推論コストが発生する。
デバイス上で効率的なCVGLを実現するためのモバイルフレンドリーなフレームワークであるMobileGeoを提案する。
MobileGeoは2つの重要なコンポーネントを通じて効率性を達成する。
1) トレーニング中, 階層蒸留(HD-CVGL)パラダイムと不確実性認識予測アライメント(UAPA)の併用により, 推定オーバーヘッドを発生させることなく, 必須情報をコンパクトなモデルに蒸留する。
2) 効率的なマルチビュー選択精細モジュール (MSRM) は, 相互情報を利用して冗長なビューをフィルタリングし, 計算負荷を低減する。
大規模な実験によると、MobileGeoは従来の最先端の手法よりも優れており、University-1652データセット上でAPを4.19倍改善し、FLOPでは5$\times$以上、FLOPでは3$\times$高速である。
重要な点として、MobileGeoはNVIDIA AGX Orinエッジデバイス上で251.5FPSで動作する。
関連論文リスト
- MCOP: Multi-UAV Collaborative Occupancy Prediction [40.58729551462363]
Current Bird's Eye View (BEV)ベースのアプローチには2つの大きな制限がある。
本稿では,複数UAV共同占有予測フレームワークを提案する。
提案手法は最先端の精度を達成し,既存の協調手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-14T16:17:42Z) - SWA-PF: Semantic-Weighted Adaptive Particle Filter for Memory-Efficient 4-DoF UAV Localization in GNSS-Denied Environments [8.46731803518948]
無人航空機(UAV)の局部化システムは、GNSS(Global Navigation Satellite System)により広範囲に研究されている。
可変高度シナリオのための大規模多高度飛行セグメントデータセット(MAFS)を提案する。
本稿では,これらの制約を克服するために,SWA-PF法を提案する。
論文 参考訳(メタデータ) (2025-09-17T08:05:36Z) - Light-Weight Cross-Modal Enhancement Method with Benchmark Construction for UAV-based Open-Vocabulary Object Detection [6.443926939309045]
我々は,データセット構築とモデル革新を組み合わせた完全なUAV指向ソリューションを提案する。
まず, アノテーションの冗長性, 不整合性, 曖昧性を効率的に解決する改良されたUAV-Labelエンジンを設計する。
第2に,クロスアテンション,アダプティブ・ゲーティング,グローバルFILM変調を統合した高機能なデュアルパス融合設計であるクロスアテンション・ゲーテッド・エンハンスメント(CAGE)モジュールを導入する。
論文 参考訳(メタデータ) (2025-09-07T10:59:02Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。