論文の概要: SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition
- arxiv url: http://arxiv.org/abs/2502.16601v1
- Date: Sun, 23 Feb 2025 15:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:14.716282
- Title: SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition
- Title(参考訳): SelaVPR++: 効率的な位置認識のための基礎モデルのシームレス適応を目指して
- Authors: Feng Lu, Tong Jin, Xiangyuan Lan, Lijun Zhang, Yunpeng Liu, Yaowei Wang, Chun Yuan,
- Abstract要約: 近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。
本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
- 参考スコア(独自算出の注目度): 69.58329995485158
- License:
- Abstract: Recent studies show that the visual place recognition (VPR) method using pre-trained visual foundation models can achieve promising performance. In our previous work, we propose a novel method to realize seamless adaptation of foundation models to VPR (SelaVPR). This method can produce both global and local features that focus on discriminative landmarks to recognize places for two-stage VPR by a parameter-efficient adaptation approach. Although SelaVPR has achieved competitive results, we argue that the previous adaptation is inefficient in training time and GPU memory usage, and the re-ranking paradigm is also costly in retrieval latency and storage usage. In pursuit of higher efficiency and better performance, we propose an extension of the SelaVPR, called SelaVPR++. Concretely, we first design a parameter-, time-, and memory-efficient adaptation method that uses lightweight multi-scale convolution (MultiConv) adapters to refine intermediate features from the frozen foundation backbone. This adaptation method does not back-propagate gradients through the backbone during training, and the MultiConv adapter facilitates feature interactions along the spatial axes and introduces proper local priors, thus achieving higher efficiency and better performance. Moreover, we propose an innovative re-ranking paradigm for more efficient VPR. Instead of relying on local features for re-ranking, which incurs huge overhead in latency and storage, we employ compact binary features for initial retrieval and robust floating-point (global) features for re-ranking. To obtain such binary features, we propose a similarity-constrained deep hashing method, which can be easily integrated into the VPR pipeline. Finally, we improve our training strategy and unify the training protocol of several common training datasets to merge them for better training of VPR models. Extensive experiments show that ......
- Abstract(参考訳): 近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が、有望な性能を達成することが示されている。
本稿では,基礎モデルのVPR(SelaVPR)へのシームレスな適応を実現する新しい手法を提案する。
本手法は,2段階のVPRの場所をパラメータ効率適応法により認識するために,識別的ランドマークに着目したグローバルな特徴と局所的な特徴の両方を生成できる。
SelaVPRは競争的な結果を得たが、トレーニング時間とGPUメモリ使用量では前回の適応は非効率であり、再グレードパラダイムは検索待ち時間とストレージ使用量にもコストがかかる、と我々は主張する。
効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
具体的には、まず、軽量なマルチスケール畳み込み(MultiConv)アダプタを用いて、凍結基盤のバックボーンから中間機能を洗練するためのパラメータ、時間、メモリ効率の適応法を設計する。
この適応法は、トレーニング中にバックボーンの勾配をバックプロパゲートしないので、MultiConvアダプタは、空間軸に沿った特徴的相互作用を促進し、適切な局所前処理を導入し、より高い効率と優れた性能を実現する。
さらに、より効率的なVPRのための革新的再評価パラダイムを提案する。
レイテンシとストレージのオーバーヘッドが大きいローカル機能に代えて、初期検索にはコンパクトなバイナリ機能、再ランクにはロバストな浮動小数点(global)機能を採用しています。
そこで本研究では,VPRパイプラインに容易に組み込むことができる類似性制約付きディープハッシュ法を提案する。
最後に、トレーニング戦略を改善し、いくつかの一般的なトレーニングデータセットのトレーニングプロトコルを統合して、VPRモデルのトレーニングを改善するためにそれらをマージします。
徹底的な実験は......
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。
ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。
また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。