論文の概要: D$^{2}$-VPR: A Parameter-efficient Visual-foundation-model-based Visual Place Recognition Method via Knowledge Distillation and Deformable Aggregation
- arxiv url: http://arxiv.org/abs/2511.12528v1
- Date: Sun, 16 Nov 2025 09:47:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.29883
- Title: D$^{2}$-VPR: A Parameter-efficient Visual-foundation-model-based Visual Place Recognition Method via Knowledge Distillation and Deformable Aggregation
- Title(参考訳): D$^{2}$-VPR:知識蒸留と変形可能な凝集によるパラメータ効率の高い視覚境界モデルに基づく視覚位置認識手法
- Authors: Zheyuan Zhang, Jiwei Zhang, Boyu Zhou, Linzhimeng Duan, Hong Chen,
- Abstract要約: ビジュアルプレース認識(VPR)は、ジオタグ付きデータベースから最も視覚的に類似したものを検索することで、クエリ画像の地理的位置を決定することを目的としている。
DINOv2は、大規模なデータセットで自己教師された方法でトレーニングされ、VPRのパフォーマンスが大幅に向上した。
視覚基礎モデルの強力な特徴抽出機能を保持するD$istillationとD$eformableベースのフレームワークであるD2$-VPRを提案する。
- 参考スコア(独自算出の注目度): 21.709098547489692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) aims to determine the geographic location of a query image by retrieving its most visually similar counterpart from a geo-tagged reference database. Recently, the emergence of the powerful visual foundation model, DINOv2, trained in a self-supervised manner on massive datasets, has significantly improved VPR performance. This improvement stems from DINOv2's exceptional feature generalization capabilities but is often accompanied by increased model complexity and computational overhead that impede deployment on resource-constrained devices. To address this challenge, we propose $D^{2}$-VPR, a $D$istillation- and $D$eformable-based framework that retains the strong feature extraction capabilities of visual foundation models while significantly reducing model parameters and achieving a more favorable performance-efficiency trade-off. Specifically, first, we employ a two-stage training strategy that integrates knowledge distillation and fine-tuning. Additionally, we introduce a Distillation Recovery Module (DRM) to better align the feature spaces between the teacher and student models, thereby minimizing knowledge transfer losses to the greatest extent possible. Second, we design a Top-Down-attention-based Deformable Aggregator (TDDA) that leverages global semantic features to dynamically and adaptively adjust the Regions of Interest (ROI) used for aggregation, thereby improving adaptability to irregular structures. Extensive experiments demonstrate that our method achieves competitive performance compared to state-of-the-art approaches. Meanwhile, it reduces the parameter count by approximately 64.2% and FLOPs by about 62.6% (compared to CricaVPR).Code is available at https://github.com/tony19980810/D2VPR.
- Abstract(参考訳): ビジュアルプレース認識(VPR)は、ジオタグ付き参照データベースから最も視覚的に類似したものを検索することで、クエリ画像の地理的位置を決定することを目的としている。
近年,大規模データセット上で自己教師型でトレーニングされた強力なビジュアルファンデーションモデルであるDINOv2の出現により,VPRのパフォーマンスが大幅に向上した。
この改善は、DINOv2の例外的な機能一般化機能に由来するが、しばしば、リソース制約のあるデバイスへのデプロイメントを妨げる、モデルの複雑さと計算オーバーヘッドが増大する。
この課題に対処するために、D^{2}$-VPR、$D$istillation-および$D$eformable-based frameworkを提案する。
具体的には、まず、知識蒸留と微調整を統合した2段階のトレーニング戦略を採用する。
さらに,教師モデルと学生モデル間の特徴空間の整合性を向上し,知識伝達損失を極力最小化するために,蒸留回収モジュール(DRM)を導入する。
第2に、グローバルな意味的特徴を活用して、集約に使用する関心領域(ROI)を動的かつ適応的に調整し、不規則な構造への適応性を向上する、トップダウンアテンションベースの変形可能なアグリゲータ(TDDA)を設計する。
大規模な実験により,本手法は最先端手法と比較して競争性能が向上することを示した。
一方、パラメータ数を約64.2%、FLOPを約62.6%削減する(CrycaVPRと比較)。
コードはhttps://github.com/tony19980810/D2VPRで公開されている。
関連論文リスト
- MobileGeo: Exploring Hierarchical Knowledge Distillation for Resource-Efficient Cross-view Drone Geo-Localization [47.16612614191333]
クロスビューなジオローカライゼーションにより、航空画像とジオタグ付き衛星データベースとのマッチングによるドローンのローカライゼーションが可能になる。
MobileGeoは、デバイス上の効率的なCVGL用に設計されたモバイルフレンドリーなフレームワークである。
MobileGeoはNVIDIA AGX Orinエッジデバイス上で251.5FPSで動作する。
論文 参考訳(メタデータ) (2025-10-26T08:47:20Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [91.98099115144511]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。
本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文 参考訳(メタデータ) (2025-02-23T15:01:09Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。
ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。
また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。