論文の概要: SAGE: Spatial-visual Adaptive Graph Exploration for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2509.25723v1
- Date: Tue, 30 Sep 2025 03:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.002074
- Title: SAGE: Spatial-visual Adaptive Graph Exploration for Visual Place Recognition
- Title(参考訳): SAGE:視覚的位置認識のための空間視覚適応グラフ探索
- Authors: Shunpeng Chen, Changwei Wang, Rongtao Xu, Xingtian Pei, Yukun Song, Jinzhou Lin, Wenhao Xu, Jingyi Zhang, Li Guo, Shibiao Xu,
- Abstract要約: 視覚的位置認識(VPR)は、外観、視点、環境の変化にもかかわらず、ジオタグ付き画像の堅牢な検索を必要とする。
SAGE(Spatial-visual Adaptive Graph Exploration)は,空間的・視覚的識別の微粒化を促進する統一的な学習パイプラインである。
- 参考スコア(独自算出の注目度): 37.553281487983064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) requires robust retrieval of geotagged images despite large appearance, viewpoint, and environmental variation. Prior methods focus on descriptor fine-tuning or fixed sampling strategies yet neglect the dynamic interplay between spatial context and visual similarity during training. We present SAGE (Spatial-visual Adaptive Graph Exploration), a unified training pipeline that enhances granular spatial-visual discrimination by jointly improving local feature aggregation, organize samples during training, and hard sample mining. We introduce a lightweight Soft Probing module that learns residual weights from training data for patch descriptors before bilinear aggregation, boosting distinctive local cues. During training we reconstruct an online geo-visual graph that fuses geographic proximity and current visual similarity so that candidate neighborhoods reflect the evolving embedding landscape. To concentrate learning on the most informative place neighborhoods, we seed clusters from high-affinity anchors and iteratively expand them with a greedy weighted clique expansion sampler. Implemented with a frozen DINOv2 backbone and parameter-efficient fine-tuning, SAGE achieves SOTA across eight benchmarks. It attains 98.9%, 95.8%, 94.5%, and 96.0% Recall@1 on SPED, Pitts30k-test, MSLS-val, and Nordland, respectively. Notably, our method obtains 100% Recall@10 on SPED only using 4096D global descriptors. Code and model will be available at: https://github.com/chenshunpeng/SAGE.
- Abstract(参考訳): 視覚的位置認識(VPR)は、外観、視点、環境の変化にもかかわらず、ジオタグ付き画像の堅牢な検索を必要とする。
以前の手法では、ディスクリプタの微調整や固定サンプリング戦略に重点を置いていたが、トレーニング中に空間コンテキストと視覚的類似性の間の動的相互作用は無視されていた。
SAGE(Spatial-visual Adaptive Graph Exploration)は,局所的な特徴集約を共同で改善し,トレーニング中のサンプルを整理し,硬いサンプルマイニングにより,空間的空間的識別を高める統一的な訓練パイプラインである。
我々は,バイリニアアグリゲーションの前に,パッチ記述子のトレーニングデータから残重量を学習し,特異な局所的手がかりを高める軽量なSoft Probingモジュールを提案する。
トレーニング中、我々は、近距離と現在の視覚的類似性を融合したオンラインジオビジュアルグラフを再構築し、候補地区が進化する埋め込み風景を反映するようにした。
高親和性アンカーからクラスターを抽出し, 重み付き斜め膨張サンプリング器で反復的に拡張する。
凍結したDINOv2バックボーンとパラメータ効率の良い微調整により、SAGEは8つのベンチマークでSOTAを達成する。
98.9%、95.8%、94.5%、96.0%のRecall@1がSPED、Pitts30k-test、MSLS-val、Norlandに到達している。
特に,4096Dグローバルディスクリプタのみを用いてSPED上のRecall@10を100%取得する。
コードとモデルについては、https://github.com/chenshunpeng/SAGE.comで公開される。
関連論文リスト
- RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings [7.431269929582643]
RANGEと呼ばれる新しい検索戦略を提案する。
本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。
その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
論文 参考訳(メタデータ) (2025-02-27T05:45:51Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Self-Supervised Place Recognition by Refining Temporal and Featural Pseudo Labels from Panoramic Data [16.540900776820084]
本稿では,時間的近傍と学習可能な特徴近傍を用いて未知の空間近傍を探索するTF-VPRという新しいフレームワークを提案する。
本手法は,リコール率,ロバスト性,方向多様性において,自己監督ベースラインよりも優れる。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。