Fugu-MT 論文翻訳(概要): Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition

論文の概要: Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition

arxiv url: http://arxiv.org/abs/2504.09881v1
Date: Mon, 14 Apr 2025 05:04:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 23:32:04.421091
Title: Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition
Title（参考訳）: 局所性に着目した視覚的位置認識のための信頼性のある識別領域の探索
Authors: Changwei Wang, Shunpeng Chen, Yukun Song, Rongtao Xu, Zherui Zhang, Jiguang Zhang, Haoran Yang, Yu Zhang, Kexue Fu, Shide Du, Zhiwei Xu, Longxiang Gao, Li Guo, Shibiao Xu,
Abstract要約: 視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。既存の手法では、識別領域の正確なモデリングと完全な利用が欠如している。本稿では、画像検索とVPRにおける再ランク付けを同時に行うために、FoL(FoL)アプローチを提案する。
参考スコア（独自算出の注目度）: 26.27331683733832
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition (VPR) is aimed at predicting the location of a query image by referencing a database of geotagged images. For VPR task, often fewer discriminative local regions in an image produce important effects while mundane background regions do not contribute or even cause perceptual aliasing because of easy overlap. However, existing methods lack precisely modeling and full exploitation of these discriminative regions. In this paper, we propose the Focus on Local (FoL) approach to stimulate the performance of image retrieval and re-ranking in VPR simultaneously by mining and exploiting reliable discriminative local regions in images and introducing pseudo-correlation supervision. First, we design two losses, Extraction-Aggregation Spatial Alignment Loss (SAL) and Foreground-Background Contrast Enhancement Loss (CEL), to explicitly model reliable discriminative local regions and use them to guide the generation of global representations and efficient re-ranking. Second, we introduce a weakly-supervised local feature training strategy based on pseudo-correspondences obtained from aggregating global features to alleviate the lack of local correspondences ground truth for the VPR task. Third, we suggest an efficient re-ranking pipeline that is efficiently and precisely based on discriminative region guidance. Finally, experimental results show that our FoL achieves the state-of-the-art on multiple VPR benchmarks in both image retrieval and re-ranking stages and also significantly outperforms existing two-stage VPR methods in terms of computational efficiency. Code and models are available at https://github.com/chenshunpeng/FoL
Abstract（参考訳）: 視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。 VPRタスクでは、画像内の識別的局所領域が少ないことが重要な効果をもたらすが、通常の背景領域は容易に重なり合うため、知覚的エイリアスを起こさない。しかし、既存の手法ではこれらの識別領域の正確なモデリングと完全な利用が欠如している。本稿では、画像中の信頼性の高い識別的局所領域をマイニングし、擬似相関監視を導入することにより、画像検索とVPRにおける再ランク付けを同時に促進するFoLアプローチを提案する。まず,抽出・集約的空間アライメント損失(SAL)とフォアグラウンド・バックグラウンド・コントラスト・コントラスト・イントラスト・ロス(CEL)の2つの損失を設計し,信頼性のある識別的地域を明示的にモデル化し,それらをグローバルな表現の生成と効率的な再ランク付けに利用した。第2に,グローバルな特徴を集約して得られた擬似対応に基づいて,VPRタスクにおける局所対応の欠如を緩和する,弱教師付きローカル特徴訓練戦略を導入する。第3に、識別領域のガイダンスに基づいて効率的かつ精度の高い効率的な再ランクパイプラインを提案する。最後に、FoLは画像検索と再評価段階の両方において複数のVPRベンチマークの最先端性を達成し、計算効率の点で既存の2段階VPR手法よりも大幅に優れていることを示す。コードとモデルはhttps://github.com/chenshunpeng/FoLで公開されている。

関連論文リスト

Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
テキスト・画像拡散モデルにおける「右端」(BE)異常は、トレーニング画像の記憶に起因する。本稿では,BEを既存のフレームワークに統合する簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-10-29T02:16:01Z)
RING#: PR-by-PE Global Localization with Roto-translation Equivariant Gram Learning [20.688641105430467]
GPS信号が信頼できない場合、グローバルなローカライゼーションは自動運転やロボティクスの応用において不可欠である。ほとんどのアプローチは、逐次位置認識(PR)とポーズ推定(PE)により、グローバルなローカライゼーションを実現する。ポーズ推定から直接導出することで、別の場所認識の必要性を回避できる新しいパラダイムであるPR-by-PEローカライゼーションを導入する。本稿では,鳥眼視(BEV)空間で動作する終端PR-by-PEローカライゼーションネットワークであるRING#を提案する。
論文参考訳（メタデータ） (2024-08-30T18:42:53Z)
EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
論文参考訳（メタデータ） (2024-05-28T11:24:41Z)
Collaborative Visual Place Recognition through Federated Learning [5.06570397863116]
視覚的位置認識(VPR)は、画像の位置を検索問題として扱うことで、画像の位置を推定することを目的としている。 VPRはジオタグ付き画像のデータベースを使用し、ディープニューラルネットワークを活用して、各画像からデクリプタと呼ばれるグローバル表現を抽出する。本研究は,フェデレートラーニング(FL)のレンズを通してVPRの課題を再考し,この適応に関連するいくつかの重要な課題に対処する。
論文参考訳（メタデータ） (2024-04-20T08:48:37Z)
Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文参考訳（メタデータ） (2024-02-25T13:22:17Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文参考訳（メタデータ） (2023-08-20T11:56:25Z)
Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2022-02-19T17:46:02Z)
Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文参考訳（メタデータ） (2022-02-09T18:56:41Z)
PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文参考訳（メタデータ） (2020-11-25T11:03:11Z)
Gait Recognition via Effective Global-Local Feature Representation and Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-03T04:07:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。