論文の概要: Fine-Grained Product Classification on Leaflet Advertisements
- arxiv url: http://arxiv.org/abs/2305.03706v1
- Date: Fri, 5 May 2023 17:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 13:06:27.410568
- Title: Fine-Grained Product Classification on Leaflet Advertisements
- Title(参考訳): リーフレットの細粒化製品分類
- Authors: Daniel Ladwig (1), Bianca Lamm (1 and 2), Janis Keuper (2) ((1) IMLA,
Offenburg University, (2) Markant Services International GmbH)
- Abstract要約: 本稿では,リーフレット画像に基づく,初めて公開された詳細な製品認識データセットについて述べる。
832のクラスで41.6kのアノテートされた製品イメージを手作業で提供します。
入力としての画像とテキストの組み合わせは、製品の識別が難しい視覚的分類を改善することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we describe a first publicly available fine-grained product
recognition dataset based on leaflet images. Using advertisement leaflets,
collected over several years from different European retailers, we provide a
total of 41.6k manually annotated product images in 832 classes. Further, we
investigate three different approaches for this fine-grained product
classification task, Classification by Image, by Text, as well as by Image and
Text. The approach "Classification by Text" uses the text extracted directly
from the leaflet product images. We show, that the combination of image and
text as input improves the classification of visual difficult to distinguish
products. The final model leads to an accuracy of 96.4% with a Top-3 score of
99.2%. We release our code at
https://github.com/ladwigd/Leaflet-Product-Classification.
- Abstract(参考訳): 本稿では,リーフレット画像に基づく,初めて公開された詳細な製品認識データセットについて述べる。
欧州の異なる小売業者から数年にわたって収集された広告用リーフレットを用いて、832のクラスで計41.6kの注釈付き製品画像を提供する。
さらに,このきめ細かい製品分類タスク,画像による分類,テキストによる分類,画像とテキストによる3つの異なるアプローチについて検討する。
テキストによる分類」のアプローチは、リーフレット製品イメージから直接抽出されたテキストを使用する。
入力としての画像とテキストの組み合わせは、製品の識別が難しい視覚的分類を改善することを示す。
最終モデルは96.4%、Top-3スコアは99.2%となる。
コードをhttps://github.com/ladwigd/Leaflet-Product-Classificationでリリースします。
関連論文リスト
- Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Rooms with Text: A Dataset for Overlaying Text Detection [0.18275108630751835]
オーバレイとシーンテキストを用いた室内画像の新しいデータセットを導入し,計4836枚の注釈付き画像を25種類の製品カテゴリに分類した。
本稿では,文字領域を意識したテキスト検出フレームワークを活用して分類モデルを導出するテキスト検出のベースライン手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T11:04:41Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Improving Visual Reasoning by Exploiting The Knowledge in Texts [13.242906693488342]
バックボーン,リレーショナル推論コンポーネント,分類コンポーネントの3つのモジュールからなる分類フレームワークを検討する。
注記画像の1%の教師付きベースラインと比較して8倍精度の高い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-02-09T11:21:44Z) - Multi-label classification of promotions in digital leaflets using
textual and visual information [1.5469452301122175]
本稿では,デジタルリーフレット内のプロモーションを製品カテゴリに分類するエンドツーエンドアプローチを提案する。
提案手法は,1) 領域検出,2) テキスト認識,3) テキスト分類の3つの重要な構成要素に分けることができる。
我々は、Nielsenが取得したデジタルリーフレットの画像からなるプライベートデータセットを用いて、モデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2020-10-07T11:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。