Fugu-MT 論文翻訳(概要): EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition

論文の概要: EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition

arxiv url: http://arxiv.org/abs/2405.18065v2
Date: Sun, 02 Feb 2025 22:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.071176
Title: EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition
Title（参考訳）: EffoVPR:視覚的位置認識のための効果的な基礎モデル利用
Authors: Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari,
Abstract要約: 本稿では,視覚的位置認識のための基礎モデルの可能性を活用するための効果的なアプローチを提案する。ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。また,本手法は高いロバスト性および一般化を実証し,新しい最先端性能の設定を行う。
参考スコア（独自算出の注目度）: 6.996304653818122
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The task of Visual Place Recognition (VPR) is to predict the location of a query image from a database of geo-tagged images. Recent studies in VPR have highlighted the significant advantage of employing pre-trained foundation models like DINOv2 for the VPR task. However, these models are often deemed inadequate for VPR without further fine-tuning on VPR-specific data. In this paper, we present an effective approach to harness the potential of a foundation model for VPR. We show that features extracted from self-attention layers can act as a powerful re-ranker for VPR, even in a zero-shot setting. Our method not only outperforms previous zero-shot approaches but also introduces results competitive with several supervised methods. We then show that a single-stage approach utilizing internal ViT layers for pooling can produce global features that achieve state-of-the-art performance, with impressive feature compactness down to 128D. Moreover, integrating our local foundation features for re-ranking further widens this performance gap. Our method also demonstrates exceptional robustness and generalization, setting new state-of-the-art performance, while handling challenging conditions such as occlusion, day-night transitions, and seasonal variations.
Abstract（参考訳）: 視覚的位置認識(VPR)の課題は、ジオタグ付き画像のデータベースからクエリ画像の位置を予測することである。 VPRにおける最近の研究は、VPRタスクにDINOv2のような事前訓練された基礎モデルを採用するという大きな利点を浮き彫りにした。しかしながら、これらのモデルは、VPR固有のデータをさらに微調整することなく、VPRには不十分であるとみなされることが多い。本稿では,VPRの基礎モデルの可能性を活用するための効果的なアプローチを提案する。ゼロショット設定であっても,自己注意層から抽出した特徴がVPRの強力な再ランカとして機能することを示す。提案手法は,従来のゼロショット手法よりも優れているだけでなく,複数の教師付き手法と競合する結果をもたらす。次に、内部のViT層をプールに利用した単一ステージのアプローチにより、最先端の性能を実現するグローバルな特徴が得られ、128Dまで優れた特徴が得られていることを示す。さらに、ローカルのファンデーション機能を統合することで、パフォーマンスのギャップをさらに広げることができます。また,本手法は,非閉塞性,夜間遷移,季節変動といった課題に対処しつつ,新たな最先端性能の設定や,異常なロバスト性や一般化を実証する。

関連論文リスト

EmbodiedPlace: Learning Mixture-of-Features with Embodied Constraints for Visual Place Recognition [9.75969669445091]
視覚的位置認識(VPR)は、コンピュータビジョンにおけるシーン指向の画像検索問題である。そこで本稿では,Mixture-of-Features (MoF) アプローチを具体的制約下で適用することにより,グローバルな特徴を洗練する,新しい簡易なリグレード手法を提案する。
論文参考訳（メタデータ） (2025-06-16T06:40:12Z)
Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition [26.27331683733832]
視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。既存の手法では、識別領域の正確なモデリングと完全な利用が欠如している。本稿では、画像検索とVPRにおける再ランク付けを同時に行うために、FoL(FoL)アプローチを提案する。
論文参考訳（メタデータ） (2025-04-14T05:04:51Z)
SelaVPR++: Towards Seamless Adaptation of Foundation Models for Efficient Place Recognition [69.58329995485158]
近年の研究では、事前学習した視覚基盤モデルを用いた視覚的位置認識(VPR)法が有望な性能を達成できることが示されている。本稿では,基礎モデルのVPRへのシームレスな適応を実現する新しい手法を提案する。効率の向上と性能向上のために,SelaVPR++と呼ばれるSelaVPRの拡張を提案する。
論文参考訳（メタデータ） (2025-02-23T15:01:09Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-07-03T16:33:31Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文参考訳（メタデータ） (2024-01-11T18:57:17Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。本研究は普遍的であり,提案手法の意義を実証するものである。
論文参考訳（メタデータ） (2023-11-18T07:00:56Z)
AnyLoc: Towards Universal Visual Place Recognition [12.892386791383025]
視覚的位置認識(VPR)は、ロボットのローカライゼーションに不可欠である。ほとんどの性能の高いVPRアプローチは環境に特化しており、タスクに特化している。私たちは、VPRの普遍的なソリューションを開発します -- 幅広い構造化された、非構造化された環境にわたって機能するテクニックです。
論文参考訳（メタデータ） (2023-08-01T17:45:13Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical Representations [2.542864854772221]
DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
論文参考訳（メタデータ） (2022-11-12T12:14:16Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Deep SIMBAD: Active Landmark-based Self-localization Using Ranking -based Scene Descriptor [5.482532589225552]
本稿では,アクティブオブザーバによるアクティブな自己ローカライゼーションタスクについて検討し,新しい強化学習(RL)に基づく次世代ベクター(NBV)プランナーを提案する。パブリックNCLTデータセットを用いた実験により,提案手法の有効性が検証された。
論文参考訳（メタデータ） (2021-09-06T23:51:27Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。