論文の概要: Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers
- arxiv url: http://arxiv.org/abs/2410.06614v1
- Date: Wed, 9 Oct 2024 07:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:39:35.578830
- Title: Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers
- Title(参考訳): Pair-VPR:視覚変換器を用いた視覚的位置認識のためのPair-VPRとContrastive Pair分類
- Authors: Stephen Hausler, Peyman Moghadam,
- Abstract要約: 視覚的位置認識(VPR)のための新しい共同学習法を提案する。
ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。
トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダウェイトを再使用することにより、Pair-VPRは最先端のVPRパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 6.890658812702241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we propose a novel joint training method for Visual Place Recognition (VPR), which simultaneously learns a global descriptor and a pair classifier for re-ranking. The pair classifier can predict whether a given pair of images are from the same place or not. The network only comprises Vision Transformer components for both the encoder and the pair classifier, and both components are trained using their respective class tokens. In existing VPR methods, typically the network is initialized using pre-trained weights from a generic image dataset such as ImageNet. In this work we propose an alternative pre-training strategy, by using Siamese Masked Image Modelling as a pre-training task. We propose a Place-aware image sampling procedure from a collection of large VPR datasets for pre-training our model, to learn visual features tuned specifically for VPR. By re-using the Mask Image Modelling encoder and decoder weights in the second stage of training, Pair-VPR can achieve state-of-the-art VPR performance across five benchmark datasets with a ViT-B encoder, along with further improvements in localization recall with larger encoders. The Pair-VPR website is: https://csiro-robotics.github.io/Pair-VPR.
- Abstract(参考訳): 本研究では,グローバルな記述子とペアの分類器を同時に学習する,視覚的位置認識(VPR)のための新しい共同学習手法を提案する。
ペア分類器は、与えられた画像のペアが同じ場所から来ているか否かを予測することができる。
ネットワークはエンコーダとペア分類器の両方のためのVision Transformerコンポーネントのみを含み、両方のコンポーネントはそれぞれのクラストークンを使用してトレーニングされる。
既存のVPR手法では、一般的にネットワークはImageNetのような一般的な画像データセットからトレーニング済みの重みを使って初期化される。
そこで本研究では,Samese Masked Image Modelling を事前学習タスクとして活用して,新たな事前学習戦略を提案する。
本稿では,VPRに特化して調整された視覚的特徴を学習するために,大規模なVPRデータセットの集合からPlace-Aware画像サンプリング手順を提案する。
トレーニングの第2段階でMaskイメージモデリングエンコーダとデコーダの重みを再利用することにより、Pair-VPRは、ViT-Bエンコーダを使用した5つのベンチマークデータセットで最先端のVPRパフォーマンスを実現し、さらに大きなエンコーダによるローカライゼーションリコールが改善される。
Pair-VPRのウェブサイトは以下の通りである。
関連論文リスト
- VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition [17.393105901701098]
本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。
我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
論文 参考訳(メタデータ) (2024-03-14T01:30:28Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Data-efficient Large Scale Place Recognition with Graded Similarity
Supervision [10.117451511942267]
視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。
既存の方法は、同じ場所を表すか、そうでないイメージペアを使って訓練される。
VPRデータセットを再ラベルするための自動再アノテーション戦略をデプロイする。
コントラストネットワークのトレーニングに,グレード付き類似性ラベルを用いた新しい一般化コントラスト損失(GCL)を提案する。
論文 参考訳(メタデータ) (2023-03-21T10:56:57Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。