論文の概要: PlaceFormer: Transformer-based Visual Place Recognition using
Multi-Scale Patch Selection and Fusion
- arxiv url: http://arxiv.org/abs/2401.13082v1
- Date: Tue, 23 Jan 2024 20:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:04:23.707115
- Title: PlaceFormer: Transformer-based Visual Place Recognition using
Multi-Scale Patch Selection and Fusion
- Title(参考訳): PlaceFormer:マルチスケールパッチ選択と融合によるトランスフォーマーに基づく視覚的位置認識
- Authors: Shyam Sundar Kannan and Byung-Cheol Min
- Abstract要約: PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual place recognition is a challenging task in the field of computer
vision, and autonomous robotics and vehicles, which aims to identify a location
or a place from visual inputs. Contemporary methods in visual place recognition
employ convolutional neural networks and utilize every region within the image
for the place recognition task. However, the presence of dynamic and
distracting elements in the image may impact the effectiveness of the place
recognition process. Therefore, it is meaningful to focus on task-relevant
regions of the image for improved recognition. In this paper, we present
PlaceFormer, a novel transformer-based approach for visual place recognition.
PlaceFormer employs patch tokens from the transformer to create global image
descriptors, which are then used for image retrieval. To re-rank the retrieved
images, PlaceFormer merges the patch tokens from the transformer to form
multi-scale patches. Utilizing the transformer's self-attention mechanism, it
selects patches that correspond to task-relevant areas in an image. These
selected patches undergo geometric verification, generating similarity scores
across different patch sizes. Subsequently, spatial scores from each patch size
are fused to produce a final similarity score. This score is then used to
re-rank the images initially retrieved using global image descriptors.
Extensive experiments on benchmark datasets demonstrate that PlaceFormer
outperforms several state-of-the-art methods in terms of accuracy and
computational efficiency, requiring less time and memory.
- Abstract(参考訳): 視覚的な場所認識は、コンピュータビジョンや自律ロボットと車両の分野で難しい課題であり、視覚的な入力から場所や場所を特定することを目的としている。
視覚位置認識における現代の手法は畳み込みニューラルネットワークを用いており、画像内の全ての領域を位置認識タスクに利用する。
しかし、画像中の動的および散逸する要素の存在は、位置認識プロセスの有効性に影響を及ぼす可能性がある。
したがって、画像のタスク関連領域に着目して認識を改善することが重要である。
本稿では,視覚的位置認識のための新しいトランスフォーマーを用いたPlaceFormerを提案する。
PlaceFormerはトランスフォーマーからのパッチトークンを使用してグローバルなイメージ記述子を生成し、画像検索に使用する。
取得したイメージを再ランクするために、PlaceFormerは、変換器からパッチトークンをマージして、マルチスケールのパッチを形成する。
トランスの自己照準機構を利用して、画像中のタスク関連領域に対応するパッチを選択する。
選択されたパッチは幾何学的検証を受け、異なるパッチサイズで類似度スコアを生成する。
その後、各パッチサイズからの空間スコアを融合して最終類似度スコアを生成する。
このスコアは、グローバルなイメージディスクリプタを使用して最初に取得されたイメージの再ランクに使用される。
ベンチマークデータセットに関する広範囲な実験により、placeformerは、精度と計算効率の点で最先端の手法よりも優れており、時間とメモリの削減が期待できる。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for
Visual Place Recognition [77.89584556347509]
視覚的位置認識(VPR)のための画像間相関認識を用いたロバストなグローバル表現法を提案する。
提案手法はPitts30k上の94.5%のR@1を512dimのグローバルな特徴を用いて達成する。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Augmenting Prototype Network with TransMix for Few-shot Hyperspectral
Image Classification [9.479240476603353]
我々は,数ショットハイパースペクトル画像分類(APNT)のためのTransMixによるプロトタイプネットワークの拡張を提案する。
プロトタイプネットワークをバックボーンとして、トランスフォーマーを特徴抽出器として採用し、画素間関係を学習する。
提案手法は,数発のハイパースペクトル画像分類において,技術性能とロバスト性の向上を実証した。
論文 参考訳(メタデータ) (2024-01-22T06:56:52Z) - PW-Self: Patch-Wise Self-Supervised Visual Representation Learning [5.53006611172769]
本研究では、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的な次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけることができる、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition [26.090419694326823]
地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
論文 参考訳(メタデータ) (2021-07-17T06:22:20Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。