論文の概要: eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges
- arxiv url: http://arxiv.org/abs/2107.05856v1
- Date: Tue, 13 Jul 2021 05:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:42:53.865085
- Title: eProduct: A Million-Scale Visual Search Benchmark to Address Product
Recognition Challenges
- Title(参考訳): eproduct: 製品認識の課題に対処する100万規模のビジュアル検索ベンチマーク
- Authors: Jiangbo Yuan, An-Ti Chiang, Wen Tang, Antonio Haro
- Abstract要約: eProductは、実世界のさまざまなビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示し,トレーニングセットには1.3M+のタイトル付き画像と階層的カテゴリラベルが記載されている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
- 参考スコア(独自算出の注目度): 8.204924070199866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale product recognition is one of the major applications of computer
vision and machine learning in the e-commerce domain. Since the number of
products is typically much larger than the number of categories of products,
image-based product recognition is often cast as a visual search rather than a
classification problem. It is also one of the instances of super fine-grained
recognition, where there are many products with slight or subtle visual
differences. It has always been a challenge to create a benchmark dataset for
training and evaluation on various visual search solutions in a real-world
setting. This motivated creation of eProduct, a dataset consisting of 2.5
million product images towards accelerating development in the areas of
self-supervised learning, weakly-supervised learning, and multimodal learning,
for fine-grained recognition. We present eProduct as a training set and an
evaluation set, where the training set contains 1.3M+ listing images with
titles and hierarchical category labels, for model development, and the
evaluation set includes 10,000 query and 1.1 million index images for visual
search evaluation. We will present eProduct's construction steps, provide
analysis about its diversity and cover the performance of baseline models
trained on it.
- Abstract(参考訳): 大規模製品認識は、eコマース分野におけるコンピュータビジョンと機械学習の主要な応用の1つである。
製品数は通常製品のカテゴリ数よりもはるかに大きいため、画像に基づく製品認識は分類問題ではなく視覚検索として使われることが多い。
また、超細粒度認識の例の1つであり、微妙または微妙な視覚差を持つ製品が多数存在する。
現実の環境で様々なビジュアル検索ソリューションのトレーニングと評価のためのベンチマークデータセットを作成することは、常に課題だった。
この動機づけは、自己教師付き学習、弱い教師付き学習、および細かな粒度の認識のためのマルチモーダル学習といった分野の開発を加速するための、250万の製品イメージからなるデータセットである。
本稿では,eProductをトレーニングセットと評価セットとして提示する。トレーニングセットには,モデル開発のためのタイトルと階層的なカテゴリラベルを含む1.3M+のイメージと,ビジュアル検索評価のための1万のクエリと1100万のインデックスイメージが含まれている。
本稿では,eProductの構成手順,多様性の分析,トレーニングしたベースラインモデルの性能について紹介する。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Shopping Queries Image Dataset (SQID): An Image-Enriched ESCI Dataset for Exploring Multimodal Learning in Product Search [0.6106642353538779]
Shopping Queriesイメージデータセット(SQID)は、Amazon Shopping Queriesデータセットの拡張で、190,000の製品に関連するイメージ情報に富んでいる。
視覚情報を統合することで、SQIDは製品検索とランキングを改善するためのマルチモーダル学習技術の研究を促進する。
本稿では,SQIDと事前学習モデルを用いて,検索とランキングにマルチモーダルデータを用いることの価値を示す実験結果を提案する。
論文 参考訳(メタデータ) (2024-05-24T03:50:31Z) - Exploiting Category Names for Few-Shot Classification with
Vision-Language Models [78.51975804319149]
大規模データに事前訓練された視覚言語基礎モデルは、多くの視覚的理解タスクに強力なツールを提供する。
本稿では,カテゴリ名を用いて分類ヘッドを初期化することにより,少数ショット分類の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-29T21:08:46Z) - e-CLIP: Large-Scale Vision-Language Representation Learning in
E-commerce [9.46186546774799]
本研究では,未ラベルの製品テキストや画像を用いて,言語モデルと視覚モデルとを整合させるコントラスト学習フレームワークを提案する。
我々は、大規模表現学習モデルを訓練し、ドメイン固有の課題に対処するソリューションを共有するために使用したテクニックを提示する。
論文 参考訳(メタデータ) (2022-07-01T05:16:47Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Multi-label classification of promotions in digital leaflets using
textual and visual information [1.5469452301122175]
本稿では,デジタルリーフレット内のプロモーションを製品カテゴリに分類するエンドツーエンドアプローチを提案する。
提案手法は,1) 領域検出,2) テキスト認識,3) テキスト分類の3つの重要な構成要素に分けることができる。
我々は、Nielsenが取得したデジタルリーフレットの画像からなるプライベートデータセットを用いて、モデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2020-10-07T11:05:12Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。