論文の概要: Towards Seamless Adaptation of Pre-trained Models for Visual Place
Recognition
- arxiv url: http://arxiv.org/abs/2402.14505v1
- Date: Thu, 22 Feb 2024 12:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:13:49.629906
- Title: Towards Seamless Adaptation of Pre-trained Models for Visual Place
Recognition
- Title(参考訳): 視覚位置認識のための事前学習モデルのシームレス適応化に向けて
- Authors: Feng Lu, Lijun Zhang, Xiangyuan Lan, Shuting Dong, Yaowei Wang, Chun
Yuan
- Abstract要約: 視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 76.66784893699054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show that vision models pre-trained in generic visual learning
tasks with large-scale data can provide useful feature representations for a
wide range of visual perception problems. However, few attempts have been made
to exploit pre-trained foundation models in visual place recognition (VPR). Due
to the inherent difference in training objectives and data between the tasks of
model pre-training and VPR, how to bridge the gap and fully unleash the
capability of pre-trained models for VPR is still a key issue to address. To
this end, we propose a novel method to realize seamless adaptation of
pre-trained models for VPR. Specifically, to obtain both global and local
features that focus on salient landmarks for discriminating places, we design a
hybrid adaptation method to achieve both global and local adaptation
efficiently, in which only lightweight adapters are tuned without adjusting the
pre-trained model. Besides, to guide effective adaptation, we propose a mutual
nearest neighbor local feature loss, which ensures proper dense local features
are produced for local matching and avoids time-consuming spatial verification
in re-ranking. Experimental results show that our method outperforms the
state-of-the-art methods with less training data and training time, and uses
about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based
spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the
time of submission). The code is released at
https://github.com/Lu-Feng/SelaVPR.
- Abstract(参考訳): 近年の研究では、大規模データを用いた汎用視覚学習タスクで事前学習された視覚モデルは、幅広い視覚知覚問題に対して有用な特徴表現を提供できることが示されている。
しかし、visual place recognition (vpr) で事前訓練された基礎モデルを活用する試みはほとんど行われていない。
モデル事前トレーニングとVPRのタスク間のトレーニング目標とデータに固有の違いがあるため、どのようにギャップを埋め、VPRの事前トレーニングモデルの能力を完全に解き放つかは、依然として対処すべき重要な問題である。
そこで本研究では,vprのための事前学習モデルのシームレス適応を実現する新しい手法を提案する。
具体的には,地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために,グローバルな適応とローカルな適応の両方を効率的に実現するためのハイブリッド適応法を設計する。
また,有効適応の導出として,局所的マッチングに適切な局所的特徴が生成され,再ランク付けに要する時間的空間的検証を回避できる相互近接局所的特徴損失を提案する。
実験結果から,本手法は訓練データとトレーニング時間が少なくて最先端の手法より優れており,RANSACによる空間的検証を行う2段階VPR手法の検索ランタイムは3%程度であることがわかった。
MSLSチャレンジリーダーボード(応募時点で)で1位にランクインしている。
コードはhttps://github.com/Lu-Feng/SelaVPRで公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [51.70437924779968]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - Self-Supervised Visual Place Recognition by Mining Temporal and Feature
Neighborhoods [17.852415436033436]
時空間近傍と学習可能な特徴近傍を用いて未知空間近傍を探索するtextitTF-VPR という新しいフレームワークを提案する。
提案手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正の集合拡大,(3)幾何的検証による正の集合収縮を交互に行う。
論文 参考訳(メタデータ) (2022-08-19T12:59:46Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。