論文の概要: AmsterTime: A Visual Place Recognition Benchmark Dataset for Severe
Domain Shift
- arxiv url: http://arxiv.org/abs/2203.16291v1
- Date: Wed, 30 Mar 2022 13:33:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 20:06:41.490292
- Title: AmsterTime: A Visual Place Recognition Benchmark Dataset for Severe
Domain Shift
- Title(参考訳): AmsterTime: 高度なドメインシフトのための視覚的位置認識ベンチマークデータセット
- Authors: Burak Yildiz, Seyran Khademi, Ronald Maria Siebes, Jan van Gemert
- Abstract要約: AmsterTimeは、アムステルダム市の歴史的考古学的画像データと一致するストリートビューから、同じシーンと一致する2500の精巧な画像のコレクションを提供している。
既存のベンチマークデータセットとは異なり、AmsterTimeはGISナビゲーションプラットフォーム(Mapillary)で直接クラウドソースされる。
- 参考スコア(独自算出の注目度): 10.875538917839474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AmsterTime: a challenging dataset to benchmark visual place
recognition (VPR) in presence of a severe domain shift. AmsterTime offers a
collection of 2,500 well-curated images matching the same scene from a street
view matched to historical archival image data from Amsterdam city. The image
pairs capture the same place with different cameras, viewpoints, and
appearances. Unlike existing benchmark datasets, AmsterTime is directly
crowdsourced in a GIS navigation platform (Mapillary). We evaluate various
baselines, including non-learning, supervised and self-supervised methods,
pre-trained on different relevant datasets, for both verification and retrieval
tasks. Our result credits the best accuracy to the ResNet-101 model pre-trained
on the Landmarks dataset for both verification and retrieval tasks by 84% and
24%, respectively. Additionally, a subset of Amsterdam landmarks is collected
for feature evaluation in a classification task. Classification labels are
further used to extract the visual explanations using Grad-CAM for inspection
of the learned similar visuals in a deep metric learning models.
- Abstract(参考訳): astertime: 厳しいドメインシフトがあった場合に視覚位置認識(vpr)をベンチマークする、挑戦的なデータセットです。
AmsterTimeは、アムステルダム市の歴史的考古学的画像データと一致するストリートビューから、同じシーンと一致する2500の精巧な画像のコレクションを提供している。
画像ペアは、異なるカメラ、視点、外観で同じ場所をキャプチャします。
既存のベンチマークデータセットとは異なり、AmsterTimeは直接GISナビゲーションプラットフォーム(Mapillary)でクラウドソースされる。
検証タスクと検索タスクの両方において,非学習,教師付き,自己指導的手法を含む,さまざまなベースラインを評価した。
その結果,Landmarksデータセット上で事前学習したResNet-101モデルに対して,検証タスクと検索タスクをそれぞれ84%,検索タスクを24%の精度で行うことができた。
さらに、分類タスクで特徴評価のためにアムステルダムランドマークのサブセットが収集される。
分類ラベルは、深層メトリック学習モデルにおいて学習された類似視覚を検査するためにgrad-camを用いて視覚的な説明を抽出するために使われる。
関連論文リスト
- Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-07T08:11:00Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - The Met Dataset: Instance-level Recognition for Artworks [19.43143591288768]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。
私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文 参考訳(メタデータ) (2022-02-03T18:13:30Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Free Lunch for Co-Saliency Detection: Context Adjustment [14.688461235328306]
市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する「コストフリー」グループカットペースト(GCP)手順を提案する。
我々は、Context Adjustment Trainingと呼ばれる新しいデータセットを収集します。データセットの2つのバリエーション、すなわち、CATとCAT+は、それぞれ16,750と33,500の画像で構成されています。
論文 参考訳(メタデータ) (2021-08-04T14:51:37Z) - Unsupervised Pretraining for Object Detection by Patch Reidentification [72.75287435882798]
教師なし表現学習は、オブジェクトディテクタの事前トレーニング表現で有望なパフォーマンスを実現します。
本研究では,オブジェクト検出のための簡易かつ効果的な表現学習手法であるパッチ再識別(Re-ID)を提案する。
私たちの方法は、トレーニングの反復やデータパーセンテージなど、すべての設定でCOCOの同等を大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-08T15:13:59Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through
Deep Learning [3.326320568999945]
我々は,クロスビュー画像検索CVIRと呼ばれる,多視点画像を対象とした新しいクロスモーダル検索手法を提案する。
本研究の目的は,ストリートビュー画像からのサンプルを衛星ビュー画像と直接比較する,特徴空間と埋め込み空間を見出すことである。
この比較のために、DeepCVIRという新しい深層学習ソリューションが提案されている。
論文 参考訳(メタデータ) (2020-05-02T06:52:16Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。