論文の概要: CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2402.19231v1
- Date: Thu, 29 Feb 2024 15:05:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 14:37:40.977366
- Title: CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition
- Title(参考訳): cricavpr:視覚位置認識のためのクロスイメージ相関認識表現学習
- Authors: Feng Lu, Xiangyuan Lan, Lijun Zhang, Dongmei Jiang, Yaowei Wang, Chun
Yuan
- Abstract要約: 視覚的位置認識(VPR)のための画像間相関認識を用いたロバストなグローバル表現法を提案する。
提案手法はPitts30k上の94.5%のR@1を512dimのグローバルな特徴を用いて達成する。
- 参考スコア(独自算出の注目度): 77.89584556347509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, most methods in visual place recognition (VPR) have
used neural networks to produce feature representations. These networks
typically produce a global representation of a place image using only this
image itself and neglect the cross-image variations (e.g. viewpoint and
illumination), which limits their robustness in challenging scenes. In this
paper, we propose a robust global representation method with cross-image
correlation awareness for VPR, named CricaVPR. Our method uses the
self-attention mechanism to correlate multiple images within a batch. These
images can be taken in the same place with different conditions or viewpoints,
or even captured from different places. Therefore, our method can utilize the
cross-image variations as a cue to guide the representation learning, which
ensures more robust features are produced. To further facilitate the
robustness, we propose a multi-scale convolution-enhanced adaptation method to
adapt pre-trained visual foundation models to the VPR task, which introduces
the multi-scale local information to further enhance the cross-image
correlation-aware representation. Experimental results show that our method
outperforms state-of-the-art methods by a large margin with significantly less
training time. Our method achieves 94.5% R@1 on Pitts30k using 512-dim global
features. The code is released at https://github.com/Lu-Feng/CricaVPR.
- Abstract(参考訳): 過去10年間、視覚位置認識(vpr)のほとんどの手法は、ニューラルネットワークを使用して特徴表現を作成してきた。
これらのネットワークは通常、この画像のみを使用して場所画像のグローバルな表現を生成し、横断像のバリエーション(視点や照明など)を無視する。
本稿では,CrycaVPR という,VPR の相互像相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関に自己認識機構を用いる。
これらの画像は異なる条件や視点で同じ場所で撮影することも、異なる場所から撮影することもできる。
そこで本手法では,表現学習をガイドする手がかりとして,クロスイメージのバリエーションを利用することができる。
さらにロバスト性を高めるために,VPRタスクに事前学習した視覚基盤モデルを適応させるマルチスケールの畳み込み強調適応法を提案し,マルチスケールの局所情報を導入し,画像間の相関認識表現をさらに強化する。
実験の結果,本手法は訓練時間を大幅に短縮し,最先端の手法よりも優れていた。
512桁のグローバル機能を用いてpits30k上で94.5%r@1を実現する。
コードはhttps://github.com/Lu-Feng/CricaVPRで公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [51.70437924779968]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - PW-Self: Patch-Wise Self-Supervised Visual Representation Learning [5.53006611172769]
本研究では、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的な次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Semantic-aware Dense Representation Learning for Remote Sensing Image
Change Detection [20.761672725633936]
ディープラーニングに基づく変化検出モデルのトレーニングはラベル付きデータに大きく依存する。
最近のトレンドは、リモートセンシング(RS)データを使用して、教師付きまたは自己教師型学習(SSL)を通じてドメイン内表現を取得することである。
複数のクラスバランス点をサンプリングし,RS画像CDに対する意味認識事前学習を提案する。
論文 参考訳(メタデータ) (2022-05-27T06:08:33Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。