論文の概要: SuperPlace: The Renaissance of Classical Feature Aggregation for Visual Place Recognition in the Era of Foundation Models
- arxiv url: http://arxiv.org/abs/2506.13073v1
- Date: Mon, 16 Jun 2025 03:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.400404
- Title: SuperPlace: The Renaissance of Classical Feature Aggregation for Visual Place Recognition in the Era of Foundation Models
- Title(参考訳): SuperPlace: ファウンデーションモデルにおける視覚的位置認識のための古典的特徴集約のルネサンス
- Authors: Bingxi Liu, Pengju Zhang, Li He, Hao Chen, Shiyi Guo, Yihong Wu, Jinqiang Cui, Hong Zhang,
- Abstract要約: 我々は古典的特徴集約法を復活させ、より基本的なVPRモデルを開発し、まとめてSuperPlaceと呼ぶ。
G$2$Mは、最近の手法と比較して、特徴次元のわずか10分の1で有望な結果が得られる。
- 参考スコア(独自算出の注目度): 11.949996583457468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent visual place recognition (VPR) approaches have leveraged foundation models (FM) and introduced novel aggregation techniques. However, these methods have failed to fully exploit key concepts of FM, such as the effective utilization of extensive training sets, and they have overlooked the potential of classical aggregation methods, such as GeM and NetVLAD. Building on these insights, we revive classical feature aggregation methods and develop more fundamental VPR models, collectively termed SuperPlace. First, we introduce a supervised label alignment method that enables training across various VPR datasets within a unified framework. Second, we propose G$^2$M, a compact feature aggregation method utilizing two GeMs, where one GeM learns the principal components of feature maps along the channel dimension and calibrates the output of the other. Third, we propose the secondary fine-tuning (FT$^2$) strategy for NetVLAD-Linear (NVL). NetVLAD first learns feature vectors in a high-dimensional space and then compresses them into a lower-dimensional space via a single linear layer. Extensive experiments highlight our contributions and demonstrate the superiority of SuperPlace. Specifically, G$^2$M achieves promising results with only one-tenth of the feature dimensions compared to recent methods. Moreover, NVL-FT$^2$ ranks first on the MSLS leaderboard.
- Abstract(参考訳): 近年の視覚的位置認識(VPR)アプローチは基礎モデル(FM)を活用し,新しい集約技術を導入している。
しかし、これらの手法は広範なトレーニングセットを効果的に活用するなど、FMの重要な概念を完全に活用することができず、GeMやNetVLADのような古典的な集約手法の可能性を見落としている。
これらの知見に基づいて、古典的特徴集約法を復活させ、より基本的なVPRモデルを開発し、まとめてSuperPlaceと呼ぶ。
まず、統一されたフレームワーク内で様々なVPRデータセット間のトレーニングを可能にする教師付きラベルアライメント手法を提案する。
第二に、G$^2$Mという、2つのGeMを用いたコンパクトな特徴集約手法を提案し、1つのGeMはチャネル次元に沿って特徴写像の主成分を学習し、他方の出力を校正する。
第3に,NetVLAD-Linear (NVL) の二次微調整戦略 (FT$^2$) を提案する。
NetVLAD はまず高次元空間で特徴ベクトルを学習し、次にそれらを1つの線形層を通して低次元空間に圧縮する。
大規模な実験は、私たちの貢献を強調し、SuperPlaceの優位性を実証します。
具体的には、G$^2$Mは、最近の手法と比較して、特徴次元のわずか10分の1で有望な結果が得られる。
さらに、NVL-FT$^2$はMSLSのリーダーボードにランクインした。
関連論文リスト
- VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition [23.173085268845384]
本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。
我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
論文 参考訳(メタデータ) (2024-09-28T09:44:08Z) - Split-and-Fit: Learning B-Reps via Structure-Aware Voronoi Partitioning [50.684254969269546]
本稿では,3次元CADモデルのバウンダリ表現(B-Reps)を取得する新しい手法を提案する。
各パーティション内に1つのプリミティブを導出するために空間分割を適用する。
我々のネットワークはニューラルなボロノイ図でNVD-Netと呼ばれ、訓練データからCADモデルのボロノイ分割を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2024-06-07T21:07:49Z) - Read Between the Layers: Leveraging Multi-Layer Representations for Rehearsal-Free Continual Learning with Pre-Trained Models [15.847302755988506]
本研究では,非定常分布から連続的なタスク列を学習しなければならない連続学習問題に対処する。
プレトレーニングネットワークの複数の中間層からの2次特徴統計量を利用する,CL に対する新しいプロトタイプベースのアプローチである LayUP を提案する。
その結果、CLにおける事前学習モデルの表現能力を完全に消耗させることは、最終的な埋め込みをはるかに超えることを示した。
論文 参考訳(メタデータ) (2023-12-13T13:11:44Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - A differentiable Gaussian Prototype Layer for explainable Segmentation [3.258592531141818]
勾配に基づくプロトタイプ学習のための勾配ベースのプロトタイプ層を導入する。
説明可能なニューラルネットワークのための新しいビルディングブロックとして使用できることを示す。
論文 参考訳(メタデータ) (2023-06-25T22:33:21Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Recycling Model Updates in Federated Learning: Are Gradient Subspaces
Low-Rank? [26.055358499719027]
本稿では,この低ランク性を利用して勾配リサイクルを実現する「Look-back Gradient Multiplier(LBGM)」アルゴリズムを提案する。
我々は,LBGMの収束挙動を解析的に特徴付け,通信貯蓄とモデル性能のトレードオフの性質を明らかにする。
LBGMは,既存の分散モデルトレーニングのためのスペーシフィケーション技術の上に,スタンドアロンあるいは積み重ねて使用可能な汎用的なプラグアンドプレイアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2022-02-01T09:05:32Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box
Estimation [87.53808756910452]
そこで我々は,Alpha-Refineと呼ばれる新しい,フレキシブルで高精度な改良モジュールを提案する。
正確なピクセルワイド相関層と空間認識の非局所層を利用して特徴を融合させ、バウンディングボックス、コーナー、マスクの3つの相補的な出力を予測する。
提案するAlpha-Refineモジュールは,DiMP,ATOM,SiamRPN++,RTMDNet,ECOの5つの有名かつ最先端のベーストラッカーに適用する。
論文 参考訳(メタデータ) (2020-07-04T07:02:25Z) - Training with Multi-Layer Embeddings for Model Reduction [0.9046327456472286]
複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
論文 参考訳(メタデータ) (2020-06-10T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。