論文の概要: The Overlooked Value of Test-time Reference Sets in Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2510.03751v1
- Date: Sat, 04 Oct 2025 09:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.231044
- Title: The Overlooked Value of Test-time Reference Sets in Visual Place Recognition
- Title(参考訳): 視覚的位置認識におけるテスト時間基準セットの概観値
- Authors: Mubariz Zaffar, Liangliang Nan, Sebastian Scherer, Julian F. P. Kooij,
- Abstract要約: クエリ画像が与えられた場合、Visual Place Recognition (VPR) は参照データベースから同じ場所の画像を取得するタスクである。
最近の研究によると、いくつかのVPRベンチマークはVision-Foundation-Modelのバックボーンを使って解決されている。
本稿では,列車テスト領域のギャップを埋めるために,補完的かつ未探索な情報ソースを提案する。
- 参考スコア(独自算出の注目度): 16.8881222711597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given a query image, Visual Place Recognition (VPR) is the task of retrieving an image of the same place from a reference database with robustness to viewpoint and appearance changes. Recent works show that some VPR benchmarks are solved by methods using Vision-Foundation-Model backbones and trained on large-scale and diverse VPR-specific datasets. Several benchmarks remain challenging, particularly when the test environments differ significantly from the usual VPR training datasets. We propose a complementary, unexplored source of information to bridge the train-test domain gap, which can further improve the performance of State-of-the-Art (SOTA) VPR methods on such challenging benchmarks. Concretely, we identify that the test-time reference set, the "map", contains images and poses of the target domain, and must be available before the test-time query is received in several VPR applications. Therefore, we propose to perform simple Reference-Set-Finetuning (RSF) of VPR models on the map, boosting the SOTA (~2.3% increase on average for Recall@1) on these challenging datasets. Finetuned models retain generalization, and RSF works across diverse test datasets.
- Abstract(参考訳): クエリ画像が与えられた場合、視覚的場所認識(VPR)は、視点や外観の変化に頑健な参照データベースから同じ場所の画像を取得するタスクである。
最近の研究によると、いくつかのVPRベンチマークはVision-Foundation-Modelバックボーンを使って解決され、大規模で多様なVPR固有のデータセットでトレーニングされている。
テスト環境が通常のVPRトレーニングデータセットと大きく異なる場合、いくつかのベンチマークは依然として難しい。
本稿では,列車テスト領域のギャップを埋めるための補完的,未探索な情報ソースを提案し,このような課題のあるベンチマーク上でのSOTA(State-of-the-Art)VPR手法の性能をさらに向上させる。
具体的には、テストタイム参照セットである「マップ」が対象領域の画像とポーズを含んでおり、テストタイムクエリが複数のVPRアプリケーションで受信される前に利用できなければならない。
そこで本研究では,これらの課題のあるデータセットに対して,SOTA (~2.3%) を平均的に増加させ,VPRモデルのシンプルな参照-セット-Finetuning (RSF) をマップ上で実行することを提案する。
微調整モデルでは一般化が維持され、RSFはさまざまなテストデータセットで機能する。
関連論文リスト
- To Match or Not to Match: Revisiting Image Matching for Reliable Visual Place Recognition [4.008780119020479]
現代の検索システムは、現在のVPRデータセットがほぼ飽和しているため、再ランク付けによって結果が劣化する点にしばしば到達している。
画像マッチングを検証ステップとして使用して、再ランク付けが有益であるときに、不整合値が確実に予測できることを実証する。
論文 参考訳(メタデータ) (2025-04-08T15:10:10Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文 参考訳(メタデータ) (2025-03-03T18:16:32Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。
ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。
また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Collaborative Visual Place Recognition through Federated Learning [5.06570397863116]
視覚的位置認識(VPR)は、画像の位置を検索問題として扱うことで、画像の位置を推定することを目的としている。
VPRはジオタグ付き画像のデータベースを使用し、ディープニューラルネットワークを活用して、各画像からデクリプタと呼ばれるグローバル表現を抽出する。
本研究は,フェデレートラーニング(FL)のレンズを通してVPRの課題を再考し,この適応に関連するいくつかの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-04-20T08:48:37Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - A-MuSIC: An Adaptive Ensemble System For Visual Place Recognition In
Changing Environments [22.58641358408613]
視覚的位置認識(VPR)は、ロボットナビゲーションとローカライゼーションシステムにおいて不可欠な要素である。
すべての環境条件において、単一のVPR技術が優れているわけではない。
A-MuSIC(Adaptive Multi-Self Identification and Correction)と呼ばれる適応型VPRシステム
A-MuSICは、テストされたすべてのベンチマークデータセット間で最先端のVPRパフォーマンスにマッチまたは打ち勝つ。
論文 参考訳(メタデータ) (2023-03-24T19:25:22Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。