論文の概要: Retail-786k: a Large-Scale Dataset for Visual Entity Matching
- arxiv url: http://arxiv.org/abs/2309.17164v2
- Date: Mon, 11 Mar 2024 15:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:09:45.300089
- Title: Retail-786k: a Large-Scale Dataset for Visual Entity Matching
- Title(参考訳): Retail-786k:ビジュアルエンティティマッチングのための大規模データセット
- Authors: Bianca Lamm (1 and 2), Janis Keuper (1) ((1) IMLA, Offenburg
University, (2) Markant Services International GmbH)
- Abstract要約: 本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。
合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。
提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Entity Matching (EM) defines the task of learning to group objects by
transferring semantic concepts from example groups (=entities) to unseen data.
Despite the general availability of image data in the context of many
EM-problems, most currently available EM-algorithms solely rely on (textual)
meta data. In this paper, we introduce the first publicly available large-scale
dataset for "visual entity matching", based on a production level use case in
the retail domain. Using scanned advertisement leaflets, collected over several
years from different European retailers, we provide a total of ~786k manually
annotated, high resolution product images containing ~18k different individual
retail products which are grouped into ~3k entities. The annotation of these
product entities is based on a price comparison task, where each entity forms
an equivalence class of comparable products. Following on a first baseline
evaluation, we show that the proposed "visual entity matching" constitutes a
novel learning problem which can not sufficiently be solved using standard
image based classification and retrieval algorithms. Instead, novel approaches
which allow to transfer example based visual equivalent classes to new data are
needed to address the proposed problem. The aim of this paper is to provide a
benchmark for such algorithms.
Information about the dataset, evaluation code and download instructions are
provided under https://www.retail-786k.org/.
- Abstract(参考訳): エンティティマッチング(em)は、例のグループ(=エンティティ)から未認識データへ意味概念を転送することで、オブジェクトをグループ化する学習のタスクを定義する。
多くのEM-problemの文脈で画像データが一般に利用可能であるにもかかわらず、現在利用可能なEM-algorithmは(テキスト)メタデータのみに依存している。
本稿では,小売ドメインにおける生産レベルのユースケースに基づいた,視覚的実体マッチングのための最初の大規模データセットについて紹介する。
欧州の異なる小売業者から数年にわたって収集されたスキャン済みの広告リーフレットを用いて、約786kの注釈付き高解像度の製品イメージを、約18kの個々の小売商品を含む約3kのエンティティにまとめて提供します。
これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同値クラスを形成する価格比較タスクに基づいている。
最初のベースライン評価に従えば,提案した「視覚的実体マッチング」が,標準画像に基づく分類と検索アルゴリズムでは十分解決できない,新しい学習課題を構成することを示す。
代わりに、提案する問題に対処するために、サンプルベースの視覚的等価クラスを新しいデータに転送できる新しいアプローチが必要となる。
本論文の目的は,そのようなアルゴリズムのベンチマークを提供することである。
データセット、評価コード、ダウンロード手順に関する情報はhttps://www.retail-786k.org/で提供される。
関連論文リスト
- Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。
1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。
このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文 参考訳(メタデータ) (2023-06-24T18:32:48Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Automatic Generation of Product-Image Sequence in E-commerce [46.06263129000091]
MUIsC(Multi-modality Unified Imagesequence)は、ルール違反を学習することで、すべてのカテゴリを同時に検出できる。
2021年12月までに、当社の AGPIS フレームワークは、約150万製品の高規格画像を生成し、13.6%の拒絶率を達成した。
論文 参考訳(メタデータ) (2022-06-26T23:38:42Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - Open-World Entity Segmentation [70.41548013910402]
我々は、意味圏ラベルを考慮せずに、画像内のすべての視覚的エンティティをセグメント化することを目的として、Entity(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。
意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。
1) 複数のデータセットをマージしてラベルの衝突を解決することなく大規模なトレーニングセットを形成すること、2) 1つのデータセットでトレーニングされたモデルが、目に見えないドメインを持つ他のデータセットに対して、例外的にうまく一般化することができること、である。
論文 参考訳(メタデータ) (2021-07-29T17:59:05Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。
Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。
大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文 参考訳(メタデータ) (2020-03-18T14:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。