論文の概要: Using LLMs for the Extraction and Normalization of Product Attribute
Values
- arxiv url: http://arxiv.org/abs/2403.02130v2
- Date: Tue, 5 Mar 2024 08:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:16:26.379327
- Title: Using LLMs for the Extraction and Normalization of Product Attribute
Values
- Title(参考訳): LLMを用いた製品属性値の抽出と正規化
- Authors: Nick Baumann, Alexander Brinkmann, Christian Bizer
- Abstract要約: 本稿では,大型言語モデル(LLM)を用いて,製品タイトルや製品記述から属性値を抽出し,正規化する可能性について検討する。
実験の結果, GPT-4はPLMに基づく抽出法を10%上回り, F1スコア91%を達成した。
- 参考スコア(独自算出の注目度): 51.45146101802871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product offers on e-commerce websites often consist of a textual product
title and a textual product description. In order to provide features such as
faceted product filtering or content-based product recommendation, the websites
need to extract attribute-value pairs from the unstructured product
descriptions. This paper explores the potential of using large language models
(LLMs), such as OpenAI's GPT-3.5 and GPT-4, to extract and normalize attribute
values from product titles and product descriptions. For our experiments, we
introduce the WDC Product Attribute-Value Extraction (WDC PAVE) dataset. WDC
PAVE consists of product offers from 87 websites that provide schema$.$org
annotations. The offers belong to five different categories, each featuring a
specific set of attributes. The dataset provides manually verified
attribute-value pairs in two forms: (i) directly extracted values and (ii)
normalized attribute values. The normalization of the attribute values requires
systems to perform the following types of operations: name expansion,
generalization, unit of measurement normalization, and string wrangling. Our
experiments demonstrate that GPT-4 outperforms PLM-based extraction methods by
10%, achieving an F1-Score of 91%. For the extraction and normalization of
product attribute values, GPT-4 achieves a similar performance to the
extraction scenario, while being particularly strong at string wrangling and
name expansion.
- Abstract(参考訳): eコマースウェブサイトでの製品提供は、しばしばテキスト製品タイトルとテキスト製品記述で構成される。
ファセット製品フィルタリングやコンテンツベースの製品レコメンデーションなどの機能を提供するためには,Webサイトは非構造化製品記述から属性値ペアを抽出する必要がある。
本稿では,OpenAI の GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) を用いて,製品タイトルや製品記述から属性値の抽出と正規化を行う可能性について検討する。
本稿ではWDC製品属性値抽出(WDC PAVE)データセットについて紹介する。
WDC PAVEは87のウェブサイトから提供され、スキーマ$を提供する。
$orgアノテーション。
提案は5つのカテゴリに属し、それぞれが特定の属性のセットを特徴とする。
データセットは、手動で検証された属性値のペアを2つの形式で提供する。
(i)直接抽出された値
(ii)正規化属性値。
属性値の正規化は、名前展開、一般化、測定単位の正規化、文字列ラングリングといった、以下の種類の演算を行うシステムを必要とする。
実験の結果, GPT-4はPLMに基づく抽出法を10%上回り, F1スコア91%を達成した。
製品属性値の抽出と正規化のために、GPT-4は、特にストリングラングリングや名前展開に強く、抽出シナリオと同じような性能を達成する。
関連論文リスト
- Product Attribute Value Extraction using Large Language Models [56.96665345570965]
事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は2つの欠点に直面している。
我々は,大規模言語モデル(LLM)を,既存の属性/値抽出法に代わる,より訓練的なデータ効率,より堅牢な代替手段として活用する可能性を探る。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - AE-smnsMLC: Multi-Label Classification with Semantic Matching and
Negative Label Sampling for Product Attribute Value Extraction [42.79022954630978]
商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。
以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱われていた。
属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いた分類モデルを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:22:28Z) - Multi-task Item-attribute Graph Pre-training for Strict Cold-start Item
Recommendation [71.5871100348448]
ColdGPTは、アイテム内容からきめ細かい属性を抽出することにより、アイテム属性相関をアイテム属性グラフにモデル化する。
ColdGPTは、さまざまな利用可能なデータソース、すなわちアイテムの内容、過去の購入シーケンス、既存のアイテムのレビューテキストから、知識をアイテム属性グラフに転送する。
大規模な実験により、ColdGPTは既存のSCSレコメンデーターを大きなマージンで一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-26T07:04:47Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z) - Multimodal Joint Attribute Prediction and Value Extraction for
E-commerce Product [40.46223408546036]
商品属性値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのEコマースシナリオにおいて不可欠である。
現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。
本稿では,製品属性を共同で予測し,製品イメージの助けを借りてテキスト製品記述から価値を抽出するマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2020-09-15T15:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。