論文の概要: Retail-786k: a Large-Scale Dataset for Visual Entity Matching
- arxiv url: http://arxiv.org/abs/2309.17164v1
- Date: Fri, 29 Sep 2023 11:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 14:14:41.178024
- Title: Retail-786k: a Large-Scale Dataset for Visual Entity Matching
- Title(参考訳): Retail-786k:ビジュアルエンティティマッチングのための大規模データセット
- Authors: Bianca Lamm (1 and 2), Janis Keuper (1) ((1) IMLA, Offenburg
University, (2) Markant Services International GmbH)
- Abstract要約: 本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Entity Matching (EM) defines the task of learning to group objects by
transferring semantic concepts from example groups (=entities) to unseen data.
Despite the general availability of image data in the context of many
EM-problems, most currently available EM-algorithms solely rely on (textual)
meta data. In this paper, we introduce the first publicly available large-scale
dataset for "visual entity matching", based on a production level use case in
the retail domain. Using scanned advertisement leaflets, collected over several
years from different European retailers, we provide a total of ~786k manually
annotated, high resolution product images containing ~18k different individual
retail products which are grouped into ~3k entities. The annotation of these
product entities is based on a price comparison task, where each entity forms
an equivalence class of comparable products. Following on a first baseline
evaluation, we show that the proposed "visual entity matching" constitutes a
novel learning problem which can not sufficiently be solved using standard
image based classification and retrieval algorithms. Instead, novel approaches
which allow to transfer example based visual equivalent classes to new data are
needed to address the proposed problem. The aim of this paper is to provide a
benchmark for such algorithms.
Information about the dataset, evaluation code and download instructions are
provided under https://www.retail-786k.org/.
- Abstract(参考訳): エンティティマッチング(em)は、例のグループ(=エンティティ)から未認識データへ意味概念を転送することで、オブジェクトをグループ化する学習のタスクを定義する。
多くのEM-problemの文脈で画像データが一般に利用可能であるにもかかわらず、現在利用可能なEM-algorithmは(テキスト)メタデータのみに依存している。
本稿では,小売ドメインにおける生産レベルのユースケースに基づいた,視覚的実体マッチングのための最初の大規模データセットについて紹介する。
欧州の異なる小売業者から数年にわたって収集されたスキャン済みの広告リーフレットを用いて、約786kの注釈付き高解像度の製品イメージを、約18kの個々の小売商品を含む約3kのエンティティにまとめて提供します。
これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同値クラスを形成する価格比較タスクに基づいている。
最初のベースライン評価に従えば,提案した「視覚的実体マッチング」が,標準画像に基づく分類と検索アルゴリズムでは十分解決できない,新しい学習課題を構成することを示す。
代わりに、提案する問題に対処するために、サンプルベースの視覚的等価クラスを新しいデータに転送できる新しいアプローチが必要となる。
本論文の目的は,そのようなアルゴリズムのベンチマークを提供することである。
データセット、評価コード、ダウンロード手順に関する情報はhttps://www.retail-786k.org/で提供される。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Unsupervised Collaborative Metric Learning with Mixed-Scale Groups for General Object Retrieval [28.810040080126324]
本稿では,MS-UGCMLを用いた非教師なし協調的距離学習という,新しい教師なし深度学習手法を提案する。
オブジェクトレベルと画像レベルmAPは最大6.69%,画像レベルmAPは10.03%向上した。
論文 参考訳(メタデータ) (2024-03-16T04:01:50Z) - Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。