論文の概要: RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image
Classification
- arxiv url: http://arxiv.org/abs/2006.12634v7
- Date: Wed, 1 Sep 2021 16:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:32:04.527543
- Title: RP2K: A Large-Scale Retail Product Dataset for Fine-Grained Image
Classification
- Title(参考訳): RP2K:微細画像分類のための大規模小売商品データセット
- Authors: Jingtian Peng, Chang Xiao, Yifan Li
- Abstract要約: RP2Kは、きめ細かい画像分類のための新しい大規模小売製品データセットである。
これまでのデータセットとは異なり、2000の異なる製品に属する棚の上の小売商品の50万枚以上の画像を集めています。
- 参考スコア(独自算出の注目度): 19.82453283089643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RP2K, a new large-scale retail product dataset for fine-grained
image classification. Unlike previous datasets focusing on relatively few
products, we collect more than 500,000 images of retail products on shelves
belonging to 2000 different products. Our dataset aims to advance the research
in retail object recognition, which has massive applications such as automatic
shelf auditing and image-based product information retrieval. Our dataset
enjoys following properties: (1) It is by far the largest scale dataset in
terms of product categories. (2) All images are captured manually in physical
retail stores with natural lightings, matching the scenario of real
applications. (3) We provide rich annotations to each object, including the
sizes, shapes and flavors/scents. We believe our dataset could benefit both
computer vision research and retail industry. Our dataset is publicly available
at https://www.pinlandata.com/rp2k_dataset.
- Abstract(参考訳): 画像分類のための大規模小売商品データセットRP2Kを紹介する。
比較的少数の製品に焦点を当てた以前のデータセットとは異なり、私たちは2000の異なる製品に属する棚に50万以上の小売製品の画像を集めています。
本データセットは,自動棚鑑定や画像に基づく製品情報検索などの大規模アプリケーションを備えた,小売対象認識研究の推進を目的としている。
当社のデータセットは,次のような特性を享受しています。 (1) 製品カテゴリでは,はるかに大規模なデータセットです。
2)全ての画像は実店舗で手動で撮影され,自然光が照らされ,実際の応用のシナリオと一致している。
(3) サイズ,形状,香りなど,各オブジェクトに豊富なアノテーションを提供します。
私たちのデータセットはコンピュータビジョン研究と小売業界の両方に恩恵をもたらすと考えています。
私たちのデータセットはhttps://www.pinlandata.com/rp2k_datasetで公開されています。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Retail-786k: a Large-Scale Dataset for Visual Entity Matching [0.0]
本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
論文 参考訳(メタデータ) (2023-09-29T11:58:26Z) - Expanding Small-Scale Datasets with Guided Imagination [92.5276783917845]
データセット拡張は、新しいラベル付きサンプルを自動生成することによって、使用可能な小さなデータセットを拡張することを目的とした、新しいタスクである。
GIFは、先行モデルの意味論的意味のある空間において、シードデータの潜伏した特徴を最適化することにより、データイマジネーションを行う。
GIF-SDは、SDによる非ガイド展開よりも、自然画像データセットのモデル精度が13.5%高い。
論文 参考訳(メタデータ) (2022-11-25T09:38:22Z) - VizWiz-FewShot: Locating Objects in Images Taken by People With Visual
Impairments [74.72656607288185]
我々は、撮影した画像の視覚的内容について真に学ぼうとしていた写真家を起源とする、数発のローカライゼーションデータセットを紹介した。
視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。
既存の数発のオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴を見つける最初のものです。
論文 参考訳(メタデータ) (2022-07-24T20:44:51Z) - Unitail: Detecting, Reading, and Matching in Retail Scene [37.1516435926562]
製品に関する基本的な視覚的タスクのベンチマークであるUnited Retailデータセットを紹介します。
1.8Mの四角形のインスタンスで、Unitailは製品の外観をより良く調整するための検出データセットを提供する。
また、1454の製品カテゴリ、30kのテキストリージョン、21kの転写を含むギャラリースタイルのOCRデータセットも提供する。
論文 参考訳(メタデータ) (2022-04-01T09:06:48Z) - A Survey on RGB-D Datasets [69.73803123972297]
本稿では,深度情報を含む画像データセットをレビューし,分類した。
アクセス可能なデータを含む203のデータセットを収集し、それらをシーン/オブジェクト、ボディ、医療の3つのカテゴリに分類しました。
論文 参考訳(メタデータ) (2022-01-15T05:35:19Z) - eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges [8.204924070199866]
eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
論文 参考訳(メタデータ) (2021-07-13T05:28:34Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Bag of Tricks for Retail Product Image Classification [0.0]
各種小売商品画像分類データセットの深層学習モデルの精度を高めるための様々な手法を提案する。
Local-Concepts-Accumulation (LCA)層と呼ばれる新しいニューラルネットワーク層は、複数のデータセット間で一貫したゲインを提供する。
小売商品の識別精度を高めるための他の方法として、Instagram-pretrained Convnet と Maximum Entropy があげられる。
論文 参考訳(メタデータ) (2020-01-12T20:20:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。