Fugu-MT 論文翻訳(概要): Retail-786k: a Large-Scale Dataset for Visual Entity Matching

論文の概要: Retail-786k: a Large-Scale Dataset for Visual Entity Matching

arxiv url: http://arxiv.org/abs/2309.17164v2
Date: Mon, 11 Mar 2024 15:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 16:09:45.300089
Title: Retail-786k: a Large-Scale Dataset for Visual Entity Matching
Title（参考訳）: Retail-786k:ビジュアルエンティティマッチングのための大規模データセット
Authors: Bianca Lamm (1 and 2), Janis Keuper (1) ((1) IMLA, Offenburg University, (2) Markant Services International GmbH)
Abstract要約: 本稿では,視覚的実体マッチングのための大規模データセットについて紹介する。合計で786kの注釈付き高解像度の製品イメージを3kのエンティティにグループ分けした18kの個別小売製品を含む。提案した「視覚的実体マッチング」は,標準画像に基づく分類と検索アルゴリズムでは十分解決できない新しい学習問題を構成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Entity Matching (EM) defines the task of learning to group objects by transferring semantic concepts from example groups (=entities) to unseen data. Despite the general availability of image data in the context of many EM-problems, most currently available EM-algorithms solely rely on (textual) meta data. In this paper, we introduce the first publicly available large-scale dataset for "visual entity matching", based on a production level use case in the retail domain. Using scanned advertisement leaflets, collected over several years from different European retailers, we provide a total of ~786k manually annotated, high resolution product images containing ~18k different individual retail products which are grouped into ~3k entities. The annotation of these product entities is based on a price comparison task, where each entity forms an equivalence class of comparable products. Following on a first baseline evaluation, we show that the proposed "visual entity matching" constitutes a novel learning problem which can not sufficiently be solved using standard image based classification and retrieval algorithms. Instead, novel approaches which allow to transfer example based visual equivalent classes to new data are needed to address the proposed problem. The aim of this paper is to provide a benchmark for such algorithms. Information about the dataset, evaluation code and download instructions are provided under https://www.retail-786k.org/.
Abstract（参考訳）: エンティティマッチング(em)は、例のグループ(=エンティティ)から未認識データへ意味概念を転送することで、オブジェクトをグループ化する学習のタスクを定義する。多くのEM-problemの文脈で画像データが一般に利用可能であるにもかかわらず、現在利用可能なEM-algorithmは(テキスト)メタデータのみに依存している。本稿では,小売ドメインにおける生産レベルのユースケースに基づいた,視覚的実体マッチングのための最初の大規模データセットについて紹介する。欧州の異なる小売業者から数年にわたって収集されたスキャン済みの広告リーフレットを用いて、約786kの注釈付き高解像度の製品イメージを、約18kの個々の小売商品を含む約3kのエンティティにまとめて提供します。これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同値クラスを形成する価格比較タスクに基づいている。最初のベースライン評価に従えば,提案した「視覚的実体マッチング」が,標準画像に基づく分類と検索アルゴリズムでは十分解決できない,新しい学習課題を構成することを示す。代わりに、提案する問題に対処するために、サンプルベースの視覚的等価クラスを新しいデータに転送できる新しいアプローチが必要となる。本論文の目的は,そのようなアルゴリズムのベンチマークを提供することである。データセット、評価コード、ダウンロード手順に関する情報はhttps://www.retail-786k.org/で提供される。

関連論文リスト

OCCAM: Class-Agnostic, Training-Free, Prior-Free and Multi-Class Object Counting [1.2196508752999795]
CAC(Class-Agnostic Object Counting)は、イメージ内の任意のクラスからオブジェクトのインスタンスをカウントする。補足情報を必要としないCACに対する初となるトレーニングフリーアプローチであるOCCAMを提示する。
論文参考訳（メタデータ） (2026-01-20T11:36:38Z)
Entity Image and Mixed-Modal Image Retrieval Datasets [9.6977953463099]
本稿では,画像の検索を厳格に評価するための新しいベンチマークを提案する。 We present two new datasets: the Entity Image dataset (EI), including canonical image for Wikipedia entity and the Mixed-Modal Image Retrieval dataset (MMIR), from the WIT dataset。我々は,学習コーパスと混合モーダル検索のための評価セットとして,ベンチマークの有用性を実証的に検証した。
論文参考訳（メタデータ） (2025-06-02T22:04:06Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文参考訳（メタデータ） (2024-09-23T12:28:40Z)
Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。我々は近年,分類学を構築し,最も顕著な論文をレビューしている。我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文参考訳（メタデータ） (2024-08-13T07:27:02Z)
Unsupervised Collaborative Metric Learning with Mixed-Scale Groups for General Object Retrieval [28.810040080126324]
本稿では,MS-UGCMLを用いた非教師なし協調的距離学習という,新しい教師なし深度学習手法を提案する。オブジェクトレベルと画像レベルmAPは最大6.69%,画像レベルmAPは10.03%向上した。
論文参考訳（メタデータ） (2024-03-16T04:01:50Z)
Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文参考訳（メタデータ） (2024-02-01T18:52:26Z)
Thinking Like an Annotator: Generation of Dataset Labeling Instructions [59.603239753484345]
本稿では、公開されていないラベリング命令に対処するため、新しいタスクであるラベリング命令生成を導入する。 1)データセット内のカテゴリ毎に視覚的に代表されるサンプルのセットを生成し,2)サンプルに対応するテキストラベルを提供する。このフレームワークは人間のアノテーションのプロキシとして機能し、最終的なラベル付け命令セットを生成し、その品質を評価するのに役立つ。
論文参考訳（メタデータ） (2023-06-24T18:32:48Z)
Modeling Entities as Semantic Points for Visual Information Extraction in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文参考訳（メタデータ） (2023-03-23T08:21:16Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)
Rethinking Object Detection in Retail Stores [55.359582952686175]
そこで我々はLocountと略される新しいタスク、同時にオブジェクトのローカライゼーションとカウントを提案する。 Locountは、関心のあるオブジェクトのグループをインスタンス数でローカライズするアルゴリズムを必要とする。大規模オブジェクトのローカライズと数えるデータセットを小売店で収集する。
論文参考訳（メタデータ） (2020-03-18T14:01:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。