論文の概要: EigenPlaces: Training Viewpoint Robust Models for Visual Place
Recognition
- arxiv url: http://arxiv.org/abs/2308.10832v1
- Date: Mon, 21 Aug 2023 16:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:39:32.164005
- Title: EigenPlaces: Training Viewpoint Robust Models for Visual Place
Recognition
- Title(参考訳): EigenPlaces: 視覚的位置認識のための視点ロバストモデルのトレーニング
- Authors: Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone
- Abstract要約: EigenPlacesと呼ばれる新しい手法を提案し、異なる視点からの画像に基づいてニューラルネットワークをトレーニングする。
基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。
文献における最も包括的なデータセットのセットに関する実験を行い、EigenPlacesは、ほとんどのデータセットにおいて、過去の最先端の技術を上回ることができることを示した。
- 参考スコア(独自算出の注目度): 22.98403243270106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition is a task that aims to predict the place of an image
(called query) based solely on its visual features. This is typically done
through image retrieval, where the query is matched to the most similar images
from a large database of geotagged photos, using learned global descriptors. A
major challenge in this task is recognizing places seen from different
viewpoints. To overcome this limitation, we propose a new method, called
EigenPlaces, to train our neural network on images from different point of
views, which embeds viewpoint robustness into the learned global descriptors.
The underlying idea is to cluster the training data so as to explicitly present
the model with different views of the same points of interest. The selection of
this points of interest is done without the need for extra supervision. We then
present experiments on the most comprehensive set of datasets in literature,
finding that EigenPlaces is able to outperform previous state of the art on the
majority of datasets, while requiring 60\% less GPU memory for training and
using 50\% smaller descriptors. The code and trained models for EigenPlaces are
available at {\small{\url{https://github.com/gmberton/EigenPlaces}}}, while
results with any other baseline can be computed with the codebase at
{\small{\url{https://github.com/gmberton/auto_VPR}}}.
- Abstract(参考訳): 視覚的場所認識(Visual Place Recognition)は、画像の場所(クエリと呼ばれる)を視覚的特徴のみに基づいて予測することを目的としたタスクである。
これは通常、画像検索によって行われ、そのクェリは、学習されたグローバルディスクリプタを使用して、ジオタグ付き写真の大規模なデータベースから得られる最も類似した画像とマッチする。
このタスクの大きな課題は、異なる視点から見た場所を認識することです。
この制限を克服するために,学習したグローバル記述子に視点の堅牢性を埋め込んだ,異なる視点からの画像に対してニューラルネットワークをトレーニングするeigenplacesという新しい手法を提案する。
基本的な考え方は、トレーニングデータをクラスタ化して、同じ関心点の異なるビューでモデルを明示的に提示することだ。
このポイントの選択は、余分な監督を必要とすることなく行われる。
次に、文献における最も包括的なデータセットの実験を行い、EigenPlacesは、トレーニングに60倍のGPUメモリが必要で、50倍の小さなディスクリプタを使用することなく、ほとんどのデータセットで、過去の最先端の技術を上回ります。
EigenPlacesのコードとトレーニングされたモデルは {\small{\url{https://github.com/gmberton/EigenPlaces}}} で利用可能であり、他のベースラインでの結果は {\small{\url{https://github.com/gmberton/auto_VPR}}} でコードベースで計算できる。
関連論文リスト
- Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - Sparse Spatial Transformers for Few-Shot Learning [6.271261279657655]
限られたデータから学ぶことは、データの不足によってトレーニングされたモデルの一般化が不十分になるため、難しい。
スパース空間トランスと呼ばれる新しいトランスを用いたニューラルネットワークアーキテクチャを提案する。
本手法はタスク関連機能を見つけ,タスク関連機能を抑制する。
論文 参考訳(メタデータ) (2021-09-27T10:36:32Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval [19.239311087570318]
クロスビュー画像のジオローカライゼーションは,空中からのGPSタグ付き参照画像とマッチングすることで,ストリートビュー検索画像の位置を決定することを目的としている。
最近の研究は、都市規模データセットの驚くほど高い検索精度を実現している。
我々は,1対1の検索範囲を超えて,画像の地理的局所化を行うための大規模ベンチマークであるVIGORを提案する。
論文 参考訳(メタデータ) (2020-11-24T15:50:54Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z) - Unifying Deep Local and Global Features for Image Search [9.614694312155798]
グローバルおよびローカルな画像特徴を1つのディープモデルに統一し、効率的な特徴抽出による正確な検索を可能にする。
我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
論文 参考訳(メタデータ) (2020-01-14T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。