論文の概要: PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion
- arxiv url: http://arxiv.org/abs/2401.13082v2
- Date: Mon, 27 May 2024 22:18:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 03:47:50.424464
- Title: PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion
- Title(参考訳): PlaceFormer:マルチスケールパッチ選択と融合によるトランスフォーマーに基づく視覚的位置認識
- Authors: Shyam Sundar Kannan, Byung-Cheol Min,
- Abstract要約: PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual place recognition is a challenging task in the field of computer vision, and autonomous robotics and vehicles, which aims to identify a location or a place from visual inputs. Contemporary methods in visual place recognition employ convolutional neural networks and utilize every region within the image for the place recognition task. However, the presence of dynamic and distracting elements in the image may impact the effectiveness of the place recognition process. Therefore, it is meaningful to focus on task-relevant regions of the image for improved recognition. In this paper, we present PlaceFormer, a novel transformer-based approach for visual place recognition. PlaceFormer employs patch tokens from the transformer to create global image descriptors, which are then used for image retrieval. To re-rank the retrieved images, PlaceFormer merges the patch tokens from the transformer to form multi-scale patches. Utilizing the transformer's self-attention mechanism, it selects patches that correspond to task-relevant areas in an image. These selected patches undergo geometric verification, generating similarity scores across different patch sizes. Subsequently, spatial scores from each patch size are fused to produce a final similarity score. This score is then used to re-rank the images initially retrieved using global image descriptors. Extensive experiments on benchmark datasets demonstrate that PlaceFormer outperforms several state-of-the-art methods in terms of accuracy and computational efficiency, requiring less time and memory.
- Abstract(参考訳): 視覚的な場所認識は、コンピュータビジョンや自律ロボットと車両の分野で難しい課題であり、視覚的な入力から場所や場所を特定することを目的としている。
現代の視覚的位置認識法では、畳み込みニューラルネットワークを使用し、画像内のすべての領域を位置認識タスクに利用している。
しかし、画像中の動的および散逸する要素の存在は、位置認識プロセスの有効性に影響を及ぼす可能性がある。
したがって、画像のタスク関連領域に着目して認識を改善することが重要である。
本稿では、視覚的位置認識のための新しいトランスフォーマーベースのアプローチであるPlaceFormerを提案する。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成し、イメージ検索に使用する。
取得したイメージを再ランクするために、PlaceFormerは、変換器からパッチトークンをマージして、マルチスケールのパッチを形成する。
変換器の自己保持機構を利用して、画像内のタスク関連領域に対応するパッチを選択する。
これらの選択されたパッチは幾何的検証を行い、異なるパッチサイズで類似度スコアを生成する。
その後、各パッチサイズの空間スコアを融合して最終的な類似度スコアを生成する。
このスコアは、グローバルなイメージディスクリプタを使用して最初に取得されたイメージを再ランクするために使用される。
ベンチマークデータセットに関する大規模な実験により、PlaceFormerは精度と計算効率の点で最先端のいくつかのメソッドより優れており、時間とメモリがより少ないことが示されている。
関連論文リスト
- Global-Local Similarity for Efficient Fine-Grained Image Recognition with Vision Transformers [5.825612611197359]
微粒な認識には、下位のマクロカテゴリからのイメージの分類が含まれる。
本稿では,画像中の識別領域を識別する新しい,計算コストの低い指標を提案する。
提案手法は,提案手法よりも計算コストの低い結果が得られる。
論文 参考訳(メタデータ) (2024-07-17T10:04:54Z) - TCFormer: Visual Recognition via Token Clustering Transformer [79.24723479088097]
本稿では,意味に基づく動的視覚トークンを生成するToken Clustering Transformer (TCFormer)を提案する。
ダイナミックトークンには2つの重要な特徴がある:(1)同じ視覚トークンを用いて類似の意味を持つ画像領域を表現し、(2)それらの領域が隣接していない場合でも、(2)貴重な詳細を持つ領域に集中し、細かなトークンを用いてそれらを表現する。
論文 参考訳(メタデータ) (2024-07-16T02:26:18Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Register assisted aggregation for Visual Place Recognition [4.5476780843439535]
視覚的場所認識(VPR)とは、コンピュータビジョンを用いて現在のクエリ画像の位置を認識する過程を指す。
従来の手法では、認識精度を向上させるのに役立つ未制御の破棄機能に対して、役に立たない機能を捨てることが多かった。
本稿では,この問題を解決するための特徴集約手法を提案する。具体的には,識別可能な場所情報を含むグローバルな特徴とローカルな特徴を得るために,元の画像トークン上にいくつかのレジスタを追加した。
論文 参考訳(メタデータ) (2024-05-19T11:36:52Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。