論文の概要: ProMap: Datasets for Product Mapping in E-commerce
- arxiv url: http://arxiv.org/abs/2309.06882v1
- Date: Wed, 13 Sep 2023 11:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:29:32.853254
- Title: ProMap: Datasets for Product Mapping in E-commerce
- Title(参考訳): ProMap:Eコマースにおけるプロダクトマッピングのためのデータセット
- Authors: Kate\v{r}ina Mackov\'a, Martin Pil\'at
- Abstract要約: 本稿では,チェコの1,495の製品ペアからなるProMapCzと,英語の1,555の製品ペアからなるProMapEnという2つの新しいプロダクトマッピングデータセットを紹介する。
データセットには、仕様を含む製品のイメージとテキスト記述の両方が含まれている。
複数の機械学習アルゴリズムがこれらのデータセットでトレーニングされ、ProMapデータセットの複雑さと完全性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of product mapping is to decide, whether two listings from two
different e-shops describe the same products. Existing datasets of matching and
non-matching pairs of products, however, often suffer from incomplete product
information or contain only very distant non-matching products. Therefore,
while predictive models trained on these datasets achieve good results on them,
in practice, they are unusable as they cannot distinguish very similar but
non-matching pairs of products. This paper introduces two new datasets for
product mapping: ProMapCz consisting of 1,495 Czech product pairs and ProMapEn
consisting of 1,555 English product pairs of matching and non-matching products
manually scraped from two pairs of e-shops. The datasets contain both images
and textual descriptions of the products, including their specifications,
making them one of the most complete datasets for product mapping.
Additionally, the non-matching products were selected in two phases, creating
two types of non-matches -- close non-matches and medium non-matches. Even the
medium non-matches are pairs of products that are much more similar than
non-matches in other datasets -- for example, they still need to have the same
brand and similar name and price. After simple data preprocessing, several
machine learning algorithms were trained on these and two the other datasets to
demonstrate the complexity and completeness of ProMap datasets. ProMap datasets
are presented as a golden standard for further research of product mapping
filling the gaps in existing ones.
- Abstract(参考訳): プロダクトマッピングの目的は、2つの異なるeショップからの2つのリストが同じ製品を記述するかどうかを決定することだ。
しかし、既存のマッチング製品と非マッチング製品のデータセットは、しばしば不完全な製品情報に悩まされる。
したがって、これらのデータセットでトレーニングされた予測モデルは、良い結果を得る一方で、実際には、非常に類似しているが適合しない製品のペアを区別できないため、使用不可能である。
本稿では,2つの製品マッピング用データセットについて紹介する。promapczは1,495個のチェコ製品対と,promapenは1,555個の英語製品対のマッチング製品と非マッチング製品からなる。
データセットには、仕様を含む製品のイメージとテキスト記述の両方が含まれており、製品マッピングのための最も完全なデータセットの1つである。
さらに、非マッチング製品は2つのフェーズで選択され、近接非マッチングと中間非マッチングの2つのタイプの非マッチングを生み出した。
中間の非マッチングでさえも、他のデータセットの非マッチングと非常によく似たプロダクトのペアです – 例えば、同じブランドと、同じ名前と価格を持つ必要があるのです。
単純なデータ前処理の後、promapデータセットの複雑さと完全性を示すために、これらと他の2つのデータセットでいくつかの機械学習アルゴリズムをトレーニングした。
ProMapデータセットは、既存のデータセットのギャップを埋める製品マッピングのさらなる研究のための黄金の標準として提示される。
関連論文リスト
- Learning variant product relationship and variation attributes from e-commerce website structures [5.273938705774915]
我々は,電子商取引カタログにおける変種商品のペアを特定するために,変種関係マッチング戦略であるVARMを導入する。
我々はRAG誘導生成LDMを用いて変異産物群間の変異と共通属性を抽出する。
論文 参考訳(メタデータ) (2024-09-17T18:24:27Z) - Text-Based Product Matching -- Semi-Supervised Clustering Approach [9.748519919202986]
本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
論文 参考訳(メタデータ) (2024-02-01T18:52:26Z) - Multi-task Item-attribute Graph Pre-training for Strict Cold-start Item
Recommendation [71.5871100348448]
ColdGPTは、アイテム内容からきめ細かい属性を抽出することにより、アイテム属性相関をアイテム属性グラフにモデル化する。
ColdGPTは、さまざまな利用可能なデータソース、すなわちアイテムの内容、過去の購入シーケンス、既存のアイテムのレビューテキストから、知識をアイテム属性グラフに転送する。
大規模な実験により、ColdGPTは既存のSCSレコメンデーターを大きなマージンで一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-26T07:04:47Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - BiCro: Noisy Correspondence Rectification for Multi-modality Data via
Bi-directional Cross-modal Similarity Consistency [66.8685113725007]
BiCroは、ノイズの多いデータペアのソフトラベルを推定して、その真の対応度を反映することを目的としている。
3つの一般的なクロスモーダルマッチングデータセットの実験により、BiCroは様々なマッチングモデルのノイズ・ロバスト性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-03-22T09:33:50Z) - Automated Extraction of Fine-Grained Standardized Product Information
from Unstructured Multilingual Web Data [66.21317300595483]
機械学習の最近の進歩と最近発表された多言語データセットが組み合わさって、堅牢な製品属性抽出を可能にしていることを示す。
私たちのモデルは、オンラインショップや言語、あるいはその両方で、確実に製品属性を予測できます。
論文 参考訳(メタデータ) (2023-02-23T16:26:11Z) - Multilingual Transformers for Product Matching -- Experiments and a New
Benchmark in Polish [0.0]
本論文は, 事前学習された多言語トランスフォーマーモデルが, 微調整後の製品マッチング問題の解決に適していることを示す。
Web Data Commons を用いた多言語 mBERT と XLM-RoBERTa モデルを英語で検証した。
事前学習したモデルの有効性を比較できる新しいデータセットをポーランド語で作成しました。
論文 参考訳(メタデータ) (2022-05-31T12:00:05Z) - Intent-based Product Collections for E-commerce using Pretrained
Language Models [8.847005669899703]
我々は、意図に基づく製品コレクションを作成するために、Webスケール製品のテキスト属性を利用する事前学習言語モデル(PLM)を使用している。
本モデルは,オフライン評価において,意図に基づく製品マッチングのための検索ベースラインモデルよりも大幅に優れている。
電子商取引プラットフォーム上でのオンライン実験結果から, PLM法により, CTR, CVR, オーダー多様性が向上した製品コレクションを, 専門家によるコレクションと比較して構築できることが示唆された。
論文 参考訳(メタデータ) (2021-10-15T17:52:42Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。