論文の概要: Multi-label classification of promotions in digital leaflets using
textual and visual information
- arxiv url: http://arxiv.org/abs/2010.03331v1
- Date: Wed, 7 Oct 2020 11:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:19:20.567228
- Title: Multi-label classification of promotions in digital leaflets using
textual and visual information
- Title(参考訳): テキスト情報と視覚情報を用いたデジタルリーフレットにおけるプロモーションのマルチラベル分類
- Authors: Roberto Arroyo, David Jim\'enez-Cabello and Javier
Mart\'inez-Cebri\'an
- Abstract要約: 本稿では,デジタルリーフレット内のプロモーションを製品カテゴリに分類するエンドツーエンドアプローチを提案する。
提案手法は,1) 領域検出,2) テキスト認識,3) テキスト分類の3つの重要な構成要素に分けることができる。
我々は、Nielsenが取得したデジタルリーフレットの画像からなるプライベートデータセットを用いて、モデルをトレーニングし、評価する。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Product descriptions in e-commerce platforms contain detailed and valuable
information about retailers assortment. In particular, coding promotions within
digital leaflets are of great interest in e-commerce as they capture the
attention of consumers by showing regular promotions for different products.
However, this information is embedded into images, making it difficult to
extract and process for downstream tasks. In this paper, we present an
end-to-end approach that classifies promotions within digital leaflets into
their corresponding product categories using both visual and textual
information. Our approach can be divided into three key components: 1) region
detection, 2) text recognition and 3) text classification. In many cases, a
single promotion refers to multiple product categories, so we introduce a
multi-label objective in the classification head. We demonstrate the
effectiveness of our approach for two separated tasks: 1) image-based detection
of the descriptions for each individual promotion and 2) multi-label
classification of the product categories using the text from the product
descriptions. We train and evaluate our models using a private dataset composed
of images from digital leaflets obtained by Nielsen. Results show that we
consistently outperform the proposed baseline by a large margin in all the
experiments.
- Abstract(参考訳): eコマースプラットフォームの製品説明には、小売業者の仕分けに関する詳細かつ貴重な情報が含まれている。
特に、デジタルリーフレット内でのコーディングプロモーションは、さまざまな製品の定期的なプロモーションを示すことで、消費者の注意を惹きつけるため、電子商取引に大きな関心を寄せている。
しかし、この情報は画像に埋め込まれており、下流タスクの抽出と処理が困難である。
本稿では,視覚情報とテキスト情報の両方を用いて,デジタルリーフレット内のプロモーションを対応する製品カテゴリに分類するエンドツーエンドアプローチを提案する。
我々のアプローチは3つの重要な構成要素に分けられる。
1)領域検出
2)テキスト認識及び
3)テキスト分類。
多くの場合、1つのプロモーションは複数の製品カテゴリを指すので、分類ヘッドに複数ラベルの目的を導入する。
2つのタスクに対するアプローチの有効性を実証する。
1)個別プロモーション毎の記述のイメージベースによる検出
2)製品記述からのテキストを用いた製品カテゴリのマルチラベル分類。
我々は、nielsenが取得したデジタルリーフレットの画像からなるプライベートデータセットを用いて、モデルをトレーニングし、評価する。
その結果,全ての実験において,提案したベースラインを大きなマージンで常に上回る結果が得られた。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Mutual Query Network for Multi-Modal Product Image Segmentation [13.192334066413837]
本稿では,視覚的・言語的モダリティの両面から商品を分割する相互クエリネットワークを提案する。
この分野での研究を促進するために,マルチモーダル製品データセット(MMPS)を構築した。
提案手法は,MMPSの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-06-26T03:18:38Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Visually Similar Products Retrieval for Shopsy [0.0]
マルチタスク学習手法を用いて,リセラーコマースのためのビジュアル検索システムを設計する。
我々のモデルは属性分類、三重項ランク付け、変分オートエンコーダ(VAE)の3つの異なるタスクからなる。
論文 参考訳(メタデータ) (2022-10-10T10:59:18Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - Comprehensive Information Integration Modeling Framework for Video
Titling [124.11296128308396]
エンド・ツー・エンド・エンド・モデリング・フレームワークにおいて、消費者生成ビデオの内容、消費者から提供される物語コメント文、製品属性などの包括的情報ソースを統合する。
この問題に対処するため,提案手法は,粒度レベルの相互作用モデリングと抽象レベルのストーリーライン要約という2つのプロセスから構成される。
グローバルなeコマースプラットフォームであるTaobaoの実際のデータから、大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2020-06-24T10:38:15Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。