論文の概要: SAGE: Spatial-visual Adaptive Graph Exploration for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2509.25723v1
- Date: Tue, 30 Sep 2025 03:34:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.002074
- Title: SAGE: Spatial-visual Adaptive Graph Exploration for Visual Place Recognition
- Title(参考訳): SAGE:視覚的位置認識のための空間視覚適応グラフ探索
- Authors: Shunpeng Chen, Changwei Wang, Rongtao Xu, Xingtian Pei, Yukun Song, Jinzhou Lin, Wenhao Xu, Jingyi Zhang, Li Guo, Shibiao Xu,
- Abstract要約: 視覚的位置認識(VPR)は、外観、視点、環境の変化にもかかわらず、ジオタグ付き画像の堅牢な検索を必要とする。
SAGE(Spatial-visual Adaptive Graph Exploration)は,空間的・視覚的識別の微粒化を促進する統一的な学習パイプラインである。
- 参考スコア(独自算出の注目度): 37.553281487983064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) requires robust retrieval of geotagged images despite large appearance, viewpoint, and environmental variation. Prior methods focus on descriptor fine-tuning or fixed sampling strategies yet neglect the dynamic interplay between spatial context and visual similarity during training. We present SAGE (Spatial-visual Adaptive Graph Exploration), a unified training pipeline that enhances granular spatial-visual discrimination by jointly improving local feature aggregation, organize samples during training, and hard sample mining. We introduce a lightweight Soft Probing module that learns residual weights from training data for patch descriptors before bilinear aggregation, boosting distinctive local cues. During training we reconstruct an online geo-visual graph that fuses geographic proximity and current visual similarity so that candidate neighborhoods reflect the evolving embedding landscape. To concentrate learning on the most informative place neighborhoods, we seed clusters from high-affinity anchors and iteratively expand them with a greedy weighted clique expansion sampler. Implemented with a frozen DINOv2 backbone and parameter-efficient fine-tuning, SAGE achieves SOTA across eight benchmarks. It attains 98.9%, 95.8%, 94.5%, and 96.0% Recall@1 on SPED, Pitts30k-test, MSLS-val, and Nordland, respectively. Notably, our method obtains 100% Recall@10 on SPED only using 4096D global descriptors. Code and model will be available at: https://github.com/chenshunpeng/SAGE.
- Abstract(参考訳): 視覚的位置認識(VPR)は、外観、視点、環境の変化にもかかわらず、ジオタグ付き画像の堅牢な検索を必要とする。
以前の手法では、ディスクリプタの微調整や固定サンプリング戦略に重点を置いていたが、トレーニング中に空間コンテキストと視覚的類似性の間の動的相互作用は無視されていた。
SAGE(Spatial-visual Adaptive Graph Exploration)は,局所的な特徴集約を共同で改善し,トレーニング中のサンプルを整理し,硬いサンプルマイニングにより,空間的空間的識別を高める統一的な訓練パイプラインである。
我々は,バイリニアアグリゲーションの前に,パッチ記述子のトレーニングデータから残重量を学習し,特異な局所的手がかりを高める軽量なSoft Probingモジュールを提案する。
トレーニング中、我々は、近距離と現在の視覚的類似性を融合したオンラインジオビジュアルグラフを再構築し、候補地区が進化する埋め込み風景を反映するようにした。
高親和性アンカーからクラスターを抽出し, 重み付き斜め膨張サンプリング器で反復的に拡張する。
凍結したDINOv2バックボーンとパラメータ効率の良い微調整により、SAGEは8つのベンチマークでSOTAを達成する。
98.9%、95.8%、94.5%、96.0%のRecall@1がSPED、Pitts30k-test、MSLS-val、Norlandに到達している。
特に,4096Dグローバルディスクリプタのみを用いてSPED上のRecall@10を100%取得する。
コードとモデルについては、https://github.com/chenshunpeng/SAGE.comで公開される。
関連論文リスト
- RANGE: Retrieval Augmented Neural Fields for Multi-Resolution Geo-Embeddings [7.431269929582643]
RANGEと呼ばれる新しい検索戦略を提案する。
本手法は,複数の類似した位置の視覚的特徴を組み合わせることで,位置の視覚的特徴を推定できるという直感に基づいて構築する。
その結果、RANGEは既存の最先端モデルよりも優れており、多くのタスクにおいてかなりの差があることがわかった。
論文 参考訳(メタデータ) (2025-02-27T05:45:51Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature
Matching [9.006654114778073]
OAMatcherは、人間の動作を模倣して、密集した正確な一致を生成する、検知不要な手法である。
OAMatcherは重複する領域を予測し、効果的でクリーンなグローバルコンテキストアグリゲーションを促進する。
総合的な実験により、OAMatcherはいくつかのベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-02-12T03:32:45Z) - Self-Supervised Place Recognition by Refining Temporal and Featural Pseudo Labels from Panoramic Data [16.540900776820084]
本稿では,時間的近傍と学習可能な特徴近傍を用いて未知の空間近傍を探索するTF-VPRという新しいフレームワークを提案する。
本手法は,リコール率,ロバスト性,方向多様性において,自己監督ベースラインよりも優れる。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - Viewpoint Invariant Dense Matching for Visual Geolocalization [15.8038460597256]
本研究では,局所的特徴量に基づく画像マッチング手法を提案する。
我々の手法はGeoWarpと呼ばれ、高密度な特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。
GeoWarpは、既存の視覚的ジオローカライゼーションパイプラインに簡単に組み込むことができる、リグレードメソッドとして効率的に実装されている。
論文 参考訳(メタデータ) (2021-09-20T20:17:38Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Graph Sampling Based Deep Metric Learning for Generalizable Person
Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。
大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-04-04T06:44:15Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - Center-wise Local Image Mixture For Contrastive Representation Learning [37.806687971373954]
インスタンス識別列車モデルに基づくコントラスト学習は、アンカーサンプルの異なる変換を他のサンプルと区別する。
本稿では,データセット内の他のサンプルからの正値を用いた新しいコントラスト学習手法であるCLIMを提案する。
ResNet-50に対する線形評価で75.5%のトップ1精度に達し、わずか1%のラベルで微調整された場合、59.3%のトップ1精度を得る。
論文 参考訳(メタデータ) (2020-11-05T08:20:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。