論文の概要: Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval
- arxiv url: http://arxiv.org/abs/2004.01804v2
- Date: Mon, 2 Nov 2020 18:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:56:28.324345
- Title: Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval
- Title(参考訳): Google Landmarks Dataset v2 -- インスタンスレベルの認識と検索のための大規模ベンチマーク
- Authors: Tobias Weyand, Andre Araujo, Bingyi Cao, Jack Sim
- Abstract要約: 大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
- 参考スコア(独自算出の注目度): 9.922132565411664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While image retrieval and instance recognition techniques are progressing
rapidly, there is a need for challenging datasets to accurately measure their
performance -- while posing novel challenges that are relevant for practical
applications. We introduce the Google Landmarks Dataset v2 (GLDv2), a new
benchmark for large-scale, fine-grained instance recognition and image
retrieval in the domain of human-made and natural landmarks. GLDv2 is the
largest such dataset to date by a large margin, including over 5M images and
200k distinct instance labels. Its test set consists of 118k images with ground
truth annotations for both the retrieval and recognition tasks. The ground
truth construction involved over 800 hours of human annotator work. Our new
dataset has several challenging properties inspired by real world applications
that previous datasets did not consider: An extremely long-tailed class
distribution, a large fraction of out-of-domain test photos and large
intra-class variability. The dataset is sourced from Wikimedia Commons, the
world's largest crowdsourced collection of landmark photos. We provide baseline
results for both recognition and retrieval tasks based on state-of-the-art
methods as well as competitive results from a public challenge. We further
demonstrate the suitability of the dataset for transfer learning by showing
that image embeddings trained on it achieve competitive retrieval performance
on independent datasets. The dataset images, ground-truth and metric scoring
code are available at https://github.com/cvdfoundation/google-landmark.
- Abstract(参考訳): 画像検索とインスタンス認識技術は急速に進歩しているが、そのパフォーマンスを正確に測定するためには、挑戦的なデータセットが必要である。
我々は、google landmarksデータセットv2(gldv2)を紹介する。これは、人造および自然ランドマークの領域における、大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークである。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
テストセットは118kの画像からなり、検索と認識の両方に真実の注釈が付けられている。
地下では800時間以上のアノテーター作業が行われた。
我々の新しいデータセットは、以前のデータセットが考慮しなかった現実世界のアプリケーションに触発されたいくつかの挑戦的な特性を持っている。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
我々は,最先端手法に基づく認識と検索の両タスクのベースライン結果と,公開課題からの競合結果を提供する。
さらに,学習した画像埋め込みが独立したデータセット上での競合検索性能を達成することを示すことにより,転送学習のためのデータセットの適合性を示す。
データセットはhttps://github.com/cvdfoundation/google-landmark.com/で入手できる。
関連論文リスト
- FORB: A Flat Object Retrieval Benchmark for Universal Image Embedding [7.272083488859574]
多様なパターンを持つ平坦な画像に対して,ビジュアル検索手法をベンチマークするための新しいデータセットを提案する。
我々のフラットオブジェクト検索ベンチマーク(FORB)は一般的に採用されている3Dオブジェクトドメインを補完する。
アウト・オブ・ディストリビューション領域のイメージ埋め込み品質を評価するためのテストベッドとして機能する。
論文 参考訳(メタデータ) (2023-09-28T08:41:51Z) - Are Local Features All You Need for Cross-Domain Visual Place
Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。
近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。
本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-04-12T14:46:57Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - The Met Dataset: Instance-level Recognition for Artworks [19.43143591288768]
この研究は、アートワークの領域における大規模インスタンスレベルの認識のためのデータセットを導入している。
私たちは、約224kクラスの大規模なトレーニングセットを形成するために、The Met博物館のオープンアクセスコレクションに依存しています。
論文 参考訳(メタデータ) (2022-02-03T18:13:30Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Text-Based Person Search with Limited Data [66.26504077270356]
テキストベースの人物検索(TBPS)は、画像ギャラリーから対象人物を記述的なテキストクエリで検索することを目的としている。
限られたデータによってもたらされる問題に対処する2つの新しいコンポーネントを持つフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:20:47Z) - A Strong Baseline for the VIPriors Data-Efficient Image Classification
Challenge [9.017660524497389]
本稿では,VIPriorsチャレンジデータセットに基づく,データ効率の高い画像分類のための強力なベースラインを提案する。
我々のベースラインは精度69.7%に達し、VIPriors 2021チャレンジへの応募の50%を上回っている。
論文 参考訳(メタデータ) (2021-09-28T08:45:15Z) - Large-scale Unsupervised Semantic Segmentation [163.3568726730319]
本稿では, 大規模無教師付きセマンティックセマンティックセグメンテーション (LUSS) の新たな課題を提案する。
ImageNetデータセットに基づいて、120万のトレーニング画像と40万の高品質なセマンティックセグメンテーションアノテーションを用いた画像Net-Sデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-06T15:02:11Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。