論文の概要: Register assisted aggregation for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2405.11526v1
- Date: Sun, 19 May 2024 11:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 15:22:21.045454
- Title: Register assisted aggregation for Visual Place Recognition
- Title(参考訳): 視覚的位置認識のための登録支援アグリゲーション
- Authors: Xuan Yu, Zhenyong Fu,
- Abstract要約: 視覚的場所認識(VPR)とは、コンピュータビジョンを用いて現在のクエリ画像の位置を認識する過程を指す。
従来の手法では、認識精度を向上させるのに役立つ未制御の破棄機能に対して、役に立たない機能を捨てることが多かった。
本稿では,この問題を解決するための特徴集約手法を提案する。具体的には,識別可能な場所情報を含むグローバルな特徴とローカルな特徴を得るために,元の画像トークン上にいくつかのレジスタを追加した。
- 参考スコア(独自算出の注目度): 4.5476780843439535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) refers to the process of using computer vision to recognize the position of the current query image. Due to the significant changes in appearance caused by season, lighting, and time spans between query images and database images for retrieval, these differences increase the difficulty of place recognition. Previous methods often discarded useless features (such as sky, road, vehicles) while uncontrolled discarding features that help improve recognition accuracy (such as buildings, trees). To preserve these useful features, we propose a new feature aggregation method to address this issue. Specifically, in order to obtain global and local features that contain discriminative place information, we added some registers on top of the original image tokens to assist in model training. After reallocating attention weights, these registers were discarded. The experimental results show that these registers surprisingly separate unstable features from the original image representation and outperform state-of-the-art methods.
- Abstract(参考訳): 視覚的場所認識(VPR)とは、コンピュータビジョンを用いて現在のクエリ画像の位置を認識する過程を指す。
検索用クエリ画像とデータベース画像の間に季節,照明,時間的間隔による出現の著しい変化により,これらの差は位置認識の困難さを増す。
従来の方法では、空、道路、車両などの役に立たない特徴を破棄する一方で、認識精度(建物、木など)を改善するために制御されていない特徴を破棄することもあった。
これらの有用な特徴を保存するために,この問題に対処する新しい特徴集約手法を提案する。
具体的には,識別位置情報を含むグローバル・ローカルな特徴を得るため,モデルの学習を支援するために,元の画像トークンの上にいくつかのレジスタを追加した。
再配置後、これらのレジスタは破棄された。
実験の結果、これらのレジスタは、元の画像表現と、最先端の手法とを驚くほど分離していることがわかった。
関連論文リスト
- Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion [2.3020018305241337]
PlaceFormerは、視覚的位置認識のためのトランスフォーマーベースのアプローチである。
PlaceFormerは、トランスフォーマーからのパッチトークンを使用して、グローバルなイメージ記述子を生成する。
イメージ内のタスク関連領域に対応するパッチを選択する。
論文 参考訳(メタデータ) (2024-01-23T20:28:06Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Robust Place Recognition using an Imaging Lidar [45.37172889338924]
本研究では,画像lidarを用いたロバストなリアルタイム位置認識手法を提案する。
本手法は真不変であり,逆再訪と逆逆再訪に対処できる。
論文 参考訳(メタデータ) (2021-03-03T01:08:31Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。