論文の概要: Using LLMs for the Extraction and Normalization of Product Attribute
Values
- arxiv url: http://arxiv.org/abs/2403.02130v2
- Date: Tue, 5 Mar 2024 08:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:16:26.379327
- Title: Using LLMs for the Extraction and Normalization of Product Attribute
Values
- Title(参考訳): LLMを用いた製品属性値の抽出と正規化
- Authors: Nick Baumann, Alexander Brinkmann, Christian Bizer
- Abstract要約: 本稿では,大型言語モデル(LLM)を用いて,製品タイトルや製品記述から属性値を抽出し,正規化する可能性について検討する。
実験の結果, GPT-4はPLMに基づく抽出法を10%上回り, F1スコア91%を達成した。
- 参考スコア(独自算出の注目度): 51.45146101802871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product offers on e-commerce websites often consist of a textual product
title and a textual product description. In order to provide features such as
faceted product filtering or content-based product recommendation, the websites
need to extract attribute-value pairs from the unstructured product
descriptions. This paper explores the potential of using large language models
(LLMs), such as OpenAI's GPT-3.5 and GPT-4, to extract and normalize attribute
values from product titles and product descriptions. For our experiments, we
introduce the WDC Product Attribute-Value Extraction (WDC PAVE) dataset. WDC
PAVE consists of product offers from 87 websites that provide schema$.$org
annotations. The offers belong to five different categories, each featuring a
specific set of attributes. The dataset provides manually verified
attribute-value pairs in two forms: (i) directly extracted values and (ii)
normalized attribute values. The normalization of the attribute values requires
systems to perform the following types of operations: name expansion,
generalization, unit of measurement normalization, and string wrangling. Our
experiments demonstrate that GPT-4 outperforms PLM-based extraction methods by
10%, achieving an F1-Score of 91%. For the extraction and normalization of
product attribute values, GPT-4 achieves a similar performance to the
extraction scenario, while being particularly strong at string wrangling and
name expansion.
- Abstract(参考訳): eコマースウェブサイトでの製品提供は、しばしばテキスト製品タイトルとテキスト製品記述で構成される。
ファセット製品フィルタリングやコンテンツベースの製品レコメンデーションなどの機能を提供するためには,Webサイトは非構造化製品記述から属性値ペアを抽出する必要がある。
本稿では,OpenAI の GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや製品記述から属性値の抽出と正規化を行う可能性について検討する。
本稿ではWDC製品属性値抽出(WDC PAVE)データセットについて紹介する。
WDC PAVEは87のウェブサイトから提供され、スキーマ$を提供する。
$orgアノテーション。
提案は5つのカテゴリに属し、それぞれが特定の属性のセットを特徴とする。
データセットは、手動で検証された属性値のペアを2つの形式で提供する。
(i)直接抽出された値
(ii)正規化属性値。
属性値の正規化は、名前展開、一般化、測定単位の正規化、文字列ラングリングといった、以下の種類の演算を行うシステムを必要とする。
実験の結果, GPT-4はPLMに基づく抽出法を10%上回り, F1スコア91%を達成した。
製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開に強く、抽出シナリオと同じような性能を達成する。
関連論文リスト
- EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - AE-smnsMLC: Multi-Label Classification with Semantic Matching and
Negative Label Sampling for Product Attribute Value Extraction [42.79022954630978]
商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。
以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱われていた。
属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いた分類モデルを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:22:28Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Multimodal Joint Attribute Prediction and Value Extraction for
E-commerce Product [40.46223408546036]
商品属性値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのEコマースシナリオにおいて不可欠である。
現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。
本稿では,製品属性を共同で予測し,製品イメージの助けを借りてテキスト製品記述から価値を抽出するマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2020-09-15T15:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。