論文の概要: Using LLMs for the Extraction and Normalization of Product Attribute Values
- arxiv url: http://arxiv.org/abs/2403.02130v4
- Date: Mon, 15 Jul 2024 10:16:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:45:18.215532
- Title: Using LLMs for the Extraction and Normalization of Product Attribute Values
- Title(参考訳): LLMを用いた製品属性値の抽出と正規化
- Authors: Alexander Brinkmann, Nick Baumann, Christian Bizer,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。
実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。
- 参考スコア(独自算出の注目度): 47.098255866050835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product offers on e-commerce websites often consist of a product title and a textual product description. In order to enable features such as faceted product search or to generate product comparison tables, it is necessary to extract structured attribute-value pairs from the unstructured product titles and descriptions and to normalize the extracted values to a single, unified scale for each attribute. This paper explores the potential of using large language models (LLMs), such as GPT-3.5 and GPT-4, to extract and normalize attribute values from product titles and descriptions. We experiment with different zero-shot and few-shot prompt templates for instructing LLMs to extract and normalize attribute-value pairs. We introduce the Web Data Commons - Product Attribute Value Extraction (WDC-PAVE) benchmark dataset for our experiments. WDC-PAVE consists of product offers from 59 different websites which provide schema.org annotations. The offers belong to five different product categories, each with a specific set of attributes. The dataset provides manually verified attribute-value pairs in two forms: (i) directly extracted values and (ii) normalized attribute values. The normalization of the attribute values requires systems to perform the following types of operations: name expansion, generalization, unit of measurement conversion, and string wrangling. Our experiments demonstrate that GPT-4 outperforms the PLM-based extraction methods SU-OpenTag, AVEQA, and MAVEQA by 10%, achieving an F1-score of 91%. For the extraction and normalization of product attribute values, GPT-4 achieves a similar performance to the extraction scenario, while being particularly strong at string wrangling and name expansion.
- Abstract(参考訳): eコマースウェブサイトでの製品提供は、しばしば製品タイトルとテキストによる製品記述から構成される。
ファセット商品検索や製品比較表作成などの機能を実現するためには、構造化されていない製品タイトルや記述から構造化された属性値ペアを抽出し、抽出した値を各属性に対して単一の統一スケールに正規化する必要がある。
本稿では, GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。
属性値ペアの抽出と正規化をLLMに指示するために,異なるゼロショットおよび少数ショットプロンプトテンプレートを用いて実験を行った。
実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。
WDC-PAVEは、スキーマ.orgアノテーションを提供する59の異なるウェブサイトから提供される製品である。
提供物は5つの異なる製品カテゴリに属し、それぞれに特定の属性のセットがある。
データセットは、手動で検証された属性値のペアを2つの形式で提供する。
(i)直接抽出された値
(ii)正規化属性値。
属性値の正規化には、名前展開、一般化、測定単位の変換、文字列ラングリングといった操作を行うシステムが必要である。
GPT-4は,SU-OpenTag,AVEQA,MAVEQAを10%向上させ,F1スコア91%を達成した。
製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開において強い一方で、抽出シナリオと同じような性能を達成する。
関連論文リスト
- EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - AE-smnsMLC: Multi-Label Classification with Semantic Matching and
Negative Label Sampling for Product Attribute Value Extraction [42.79022954630978]
商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。
以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱われていた。
属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いた分類モデルを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:22:28Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Multimodal Joint Attribute Prediction and Value Extraction for
E-commerce Product [40.46223408546036]
商品属性値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのEコマースシナリオにおいて不可欠である。
現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。
本稿では,製品属性を共同で予測し,製品イメージの助けを借りてテキスト製品記述から価値を抽出するマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2020-09-15T15:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。