論文の概要: HE-VPR: Height Estimation Enabled Aerial Visual Place Recognition Against Scale Variance
- arxiv url: http://arxiv.org/abs/2603.04050v1
- Date: Wed, 04 Mar 2026 13:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.892464
- Title: HE-VPR: Height Estimation Enabled Aerial Visual Place Recognition Against Scale Variance
- Title(参考訳): HE-VPR:スケール変数に対する空中視覚的位置認識を可能にするハイト推定
- Authors: Mengfan He, Xingyu Shao, Chunyu Li, Chao Chen, Liangzheng Sun, Ziyang Meng, Yuanqing Wu,
- Abstract要約: HE-VPRは高さ推定を組み込んだ視覚的位置認識フレームワークである。
システムは位置認識から高さ推定を分離し、両方のモジュールが凍結したDINOv2バックボーンを共有する。
実験の結果、HE-VPRは最先端のViTベースのベースラインよりも最大6.1%のRecall@1の改善を実現している。
- 参考スコア(独自算出の注目度): 5.523755063168976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose HE-VPR, a visual place recognition (VPR) framework that incorporates height estimation. Our system decouples height inference from place recognition, allowing both modules to share a frozen DINOv2 backbone. Two lightweight bypass adapter branches are integrated into our system. The first estimates the height partition of the query image via retrieval from a compact height database, and the second performs VPR within the corresponding height-specific sub-database. The adaptation design reduces training cost and significantly decreases the search space of the database. We also adopt a center-weighted masking strategy to further enhance the robustness against scale differences. Experiments on two self-collected challenging multi-altitude datasets demonstrate that HE-VPR achieves up to 6.1\% Recall@1 improvement over state-of-the-art ViT-based baselines and reduces memory usage by up to 90\%. These results indicate that HE-VPR offers a scalable and efficient solution for height-aware aerial VPR, enabling practical deployment in GNSS-denied environments. All the code and datasets for this work have been released on https://github.com/hmf21/HE-VPR.
- Abstract(参考訳): 本研究では,高さ推定を組み込んだ視覚的位置認識(VPR)フレームワークHE-VPRを提案する。
我々のシステムは高さ推定を場所認識から切り離し、両方のモジュールが凍結したDINOv2バックボーンを共有することができる。
本システムには2つの軽量バイパスアダプタブランチが組み込まれている。
第1は、コンパクトな高さデータベースからの検索によりクエリ画像の高さ分割を推定し、第2は、対応する高さ特化サブデータベース内でVPRを実行する。
適応設計は、トレーニングコストを低減し、データベースの検索スペースを著しく削減する。
また,スケール差に対するロバスト性を高めるために,中心重み付きマスキング戦略を採用した。
HE-VPRは、最先端のViTベースのベースラインよりも最大6.1\%の改善を実現し、メモリ使用量を最大90%削減する。
これらの結果から,HE-VPRは高度認識型空中VPRに対して,スケーラブルで効率的なソリューションを提供し,GNSSデニド環境への実用的展開を可能にすることが示唆された。
この作業のコードとデータセットはすべてhttps://github.com/hmf21/HE-VPRで公開されている。
関連論文リスト
- D$^{2}$-VPR: A Parameter-efficient Visual-foundation-model-based Visual Place Recognition Method via Knowledge Distillation and Deformable Aggregation [21.709098547489692]
ビジュアルプレース認識(VPR)は、ジオタグ付きデータベースから最も視覚的に類似したものを検索することで、クエリ画像の地理的位置を決定することを目的としている。
DINOv2は、大規模なデータセットで自己教師された方法でトレーニングされ、VPRのパフォーマンスが大幅に向上した。
視覚基礎モデルの強力な特徴抽出機能を保持するD$istillationとD$eformableベースのフレームワークであるD2$-VPRを提案する。
論文 参考訳(メタデータ) (2025-11-16T09:47:45Z) - SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [91.98099115144511]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。
本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:01:09Z) - BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Design Space Exploration of Low-Bit Quantized Neural Networks for Visual
Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。
最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。
これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。
完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2023-12-14T15:24:42Z) - EVP: Enhanced Visual Perception using Inverse Multi-Attentive Feature
Refinement and Regularized Image-Text Alignment [40.328294121805456]
この研究は、コンピュータビジョンタスクにStable Diffusionネットワークを使用する方法を舗装した以前のVPDに基づいている。
Inverse Multi-Attentive Feature Refinement (IMAFR) モジュールを開発した。
第2に、安定拡散バックボーンの特徴抽出を改善するための新しい画像テキストアライメントモジュールを提案する。
論文 参考訳(メタデータ) (2023-12-13T22:20:45Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。