論文の概要: Regressing Transformers for Data-efficient Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2401.16304v1
- Date: Mon, 29 Jan 2024 17:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:05:00.690304
- Title: Regressing Transformers for Data-efficient Visual Place Recognition
- Title(参考訳): データ効率の良い視覚位置認識のためのレグレッシブトランス
- Authors: Mar\'ia Leyva-Vallina, Nicola Strisciuglio and Nicolai Petkov
- Abstract要約: この研究は、レグレッション問題としての場所認識をフレーミングすることで、新しい視点を導入する。
画像ディスクリプタをグレード付き類似ラベルと直接整合するように最適化することにより、高価な再ランク付けなしでランキング機能を向上させる。
- 参考スコア(独自算出の注目度): 10.156432076272475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual place recognition is a critical task in computer vision, especially
for localization and navigation systems. Existing methods often rely on
contrastive learning: image descriptors are trained to have small distance for
similar images and larger distance for dissimilar ones in a latent space.
However, this approach struggles to ensure accurate distance-based image
similarity representation, particularly when training with binary pairwise
labels, and complex re-ranking strategies are required. This work introduces a
fresh perspective by framing place recognition as a regression problem, using
camera field-of-view overlap as similarity ground truth for learning. By
optimizing image descriptors to align directly with graded similarity labels,
this approach enhances ranking capabilities without expensive re-ranking,
offering data-efficient training and strong generalization across several
benchmark datasets.
- Abstract(参考訳): 視覚位置認識はコンピュータビジョン、特にローカライゼーションやナビゲーションシステムにおいて重要なタスクである。
画像記述子は、類似した画像に対して小さな距離を持つように訓練され、潜在空間において異なる画像に対してより大きな距離を持つように訓練される。
しかし、このアプローチは、特にバイナリペアワイドラベルによるトレーニングや複雑な再ランク戦略が必要な場合には、正確な距離ベースの画像類似性表現を保証するのに苦労する。
本研究は,位置認識を回帰問題とし,学習のための類似性基盤としてカメラとビューの重なりを用いた新しい視点を提案する。
画像記述子をグレードの類似度ラベルに直接合わせるように最適化することで、このアプローチは、高価な再ランク付けなしにランキング機能を強化し、データ効率の良いトレーニングといくつかのベンチマークデータセットにわたる強力な一般化を提供する。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Data-efficient Large Scale Place Recognition with Graded Similarity
Supervision [10.117451511942267]
視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。
既存の方法は、同じ場所を表すか、そうでないイメージペアを使って訓練される。
VPRデータセットを再ラベルするための自動再アノテーション戦略をデプロイする。
コントラストネットワークのトレーニングに,グレード付き類似性ラベルを用いた新しい一般化コントラスト損失(GCL)を提案する。
論文 参考訳(メタデータ) (2023-03-21T10:56:57Z) - Multi-modal unsupervised brain image registration using edge maps [7.49320945341034]
本稿では,マルチモーダル画像登録手法を提案する。
この背景にある直感は、強い勾配の像の位置が組織の遷移を意味すると仮定されている。
我々は3つの異なる損失関数を用いて、異なる被験者のマルチモーダル(T1wからT2w)磁気共鳴(MR)脳画像を登録する状況において、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2022-02-09T15:50:14Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Semantic similarity metrics for learned image registration [10.355938901584565]
画像登録のための意味的類似度尺度を提案する。
このアプローチは、学習に基づく登録モデルの最適化を促進するデータセット固有の特徴を学習する。
自動エンコーダを用いた非監視的アプローチと、補助セグメンテーションデータを用いた半監督的アプローチの両方をトレーニングし、画像登録のための意味的特徴を抽出します。
論文 参考訳(メタデータ) (2021-04-20T15:23:58Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。