論文の概要: Extraction of Product Specifications from the Web -- Going Beyond Tables
and Lists
- arxiv url: http://arxiv.org/abs/2201.02896v1
- Date: Sat, 8 Jan 2022 22:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:33:45.056469
- Title: Extraction of Product Specifications from the Web -- Going Beyond Tables
and Lists
- Title(参考訳): web から製品仕様を抽出する -- 表やリストを超えて
- Authors: Govind Krishnan Gangadhar and Ashish Kulkarni
- Abstract要約: 我々は、表やリストを超えて、仕様ブロックを描画するのに使われる様々なHTML要素を一般化する製品仕様抽出アプローチを提案する。
さまざまな製品Webサイトから抽出された14,111の多様な仕様ブロックから抽出されたラベル付き製品仕様データセットを作成しました。
- 参考スコア(独自算出の注目度): 2.055949720959582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: E-commerce product pages on the web often present product specification data
in structured tabular blocks. Extraction of these product attribute-value
specifications has benefited applications like product catalogue curation,
search, question answering, and others. However, across different Websites,
there is a wide variety of HTML elements (like <table>, <ul>, <div>, <span>,
<dl> etc.) typically used to render these blocks that makes their automatic
extraction a challenge. Most of the current research has focused on extracting
product specifications from tables and lists and, therefore, suffers from
recall when applied to a large-scale extraction setting. In this paper, we
present a product specification extraction approach that goes beyond tables or
lists and generalizes across the diverse HTML elements used for rendering
specification blocks. Using a combination of hand-coded features and deep
learned spatial and token features, we first identify the specification blocks
on a product page. We then extract the product attribute-value pairs from these
blocks following an approach inspired by wrapper induction. We created a
labeled dataset of product specifications extracted from 14,111 diverse
specification blocks taken from a range of different product websites. Our
experiments show the efficacy of our approach compared to the current
specification extraction models and support our claim about its application to
large-scale product specification extraction.
- Abstract(参考訳): ウェブ上のeコマース製品ページは、しばしば構造化表形式で製品仕様データを提示する。
これらの製品属性値仕様の抽出は、製品カタログキュレーション、検索、質問応答などのアプリケーションに恩恵をもたらしました。
しかし、異なるwebサイトには、様々なhtml要素(<table>、<ul>、<div>、<span>、<dl>など)があり、これらのブロックをレンダリングするのに一般的に使われ、自動抽出は困難である。
現在の研究のほとんどは、表やリストから製品仕様を抽出することに重点を置いているため、大規模な抽出設定に適用した場合のリコールに苦しめられている。
本稿では、表やリストを超えて、仕様ブロックの描画に使用される様々なHTML要素を一般化する製品仕様抽出手法を提案する。
手入力された機能と深層学習された空間とトークンの機能を組み合わせることで、まず製品ページの仕様ブロックを特定します。
次に、ラッパー誘導に触発されたアプローチに従って、これらのブロックから製品属性と値のペアを抽出する。
さまざまな製品webサイトから抽出した14,111の多様な仕様ブロックから抽出した製品仕様のラベル付きデータセットを作成しました。
提案手法は,現行の仕様抽出モデルと比較して有効性を示し,大規模製品仕様抽出への応用に関する我々の主張を裏付ける。
関連論文リスト
- PAE: LLM-based Product Attribute Extraction for E-Commerce Fashion Trends [0.6445605125467574]
本稿では,PDF形式のテキストと画像からなる今後のトレンドレポートのための製品属性抽出アルゴリズムであるPAEを提案する。
a) 構造化されていないデータ(テキストと画像)から属性を抽出する効率的なフレームワークであるPAEを開発する; (b) 今後の属性値を用いて既存の属性を検出するためのBERT表現に基づくカタログマッチング方法論を提供する; (c) PAEが有効で柔軟性があり、同等以上の(92.5% F1-Score)フレームワークであることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:50:25Z) - Using LLMs for the Extraction and Normalization of Product Attribute Values [47.098255866050835]
本稿では,大規模言語モデル(LLM)を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。
実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2024-03-04T15:39:59Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - WebFormer: The Web-page Transformer for Structure Information Extraction [44.46531405460861]
構造情報抽出は、構造化されたテキストフィールドをWebページから抽出するタスクを指す。
シーケンスモデリングを用いた最近の自然言語モデルは、Web情報抽出における最先端の性能を実証している。
本稿では、Webドキュメントから構造情報を抽出するWebページトランスフォーマーモデルであるWebFormerを紹介する。
論文 参考訳(メタデータ) (2022-02-01T04:44:02Z) - CoVA: Context-aware Visual Attention for Webpage Information Extraction [65.11609398029783]
WIE をコンテキスト対応 Web ページオブジェクト検出タスクとして再構築することを提案する。
我々は、外観特徴とDOMツリーからの構文構造を組み合わせた、コンテキスト認識型視覚意図ベース(CoVA)検出パイプラインを開発した。
提案手法は,従来の最先端手法を改良した新しい挑戦的ベースラインであることを示す。
論文 参考訳(メタデータ) (2021-10-24T00:21:46Z) - Sequential Modeling with Multiple Attributes for Watchlist
Recommendation in E-Commerce [67.6615871959902]
電子商取引におけるウォッチリスト機能について検討し、新しいウォッチリスト推薦タスクを導入する。
私たちのゴールは、ユーザーが次にクリックするアイテムを予測することで、ユーザーが次に注意を払うべきウォッチリスト項目を優先順位付けすることです。
提案するレコメンデーションモデルであるTrans2DはTransformerアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2021-10-18T10:02:15Z) - PAM: Understanding Product Images in Cross Product Category Attribute
Extraction [40.332066960433245]
この研究は、属性抽出に様々なモダリティを完全に活用するより包括的なフレームワークを提案する。
視覚的質問応答における最近の研究に触発されて,製品テキスト,光学的文字認識(OCR)トークン,および製品画像から検出された視覚オブジェクトの表現を融合するために,トランスフォーマーに基づくシーケンスモデルを用いている。
フレームワークはさらに拡張されており、複数の製品カテゴリにまたがる属性値を単一のモデルで抽出することができる。
論文 参考訳(メタデータ) (2021-06-08T18:30:17Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。