論文の概要: MAVE: A Product Dataset for Multi-source Attribute Value Extraction
- arxiv url: http://arxiv.org/abs/2112.08663v1
- Date: Thu, 16 Dec 2021 06:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:46:59.095219
- Title: MAVE: A Product Dataset for Multi-source Attribute Value Extraction
- Title(参考訳): MAVE:マルチソース属性値抽出のための製品データセット
- Authors: Li Yang, Qifan Wang, Zac Yu, Anand Kulkarni, Sumit Sanghai, Bin Shu,
Jon Elsas, Bhargav Kanagal
- Abstract要約: 製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 10.429320377835241
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Attribute value extraction refers to the task of identifying values of an
attribute of interest from product information. Product attribute values are
essential in many e-commerce scenarios, such as customer service robots,
product ranking, retrieval and recommendations. While in the real world, the
attribute values of a product are usually incomplete and vary over time, which
greatly hinders the practical applications. In this paper, we introduce MAVE, a
new dataset to better facilitate research on product attribute value
extraction. MAVE is composed of a curated set of 2.2 million products from
Amazon pages, with 3 million attribute-value annotations across 1257 unique
categories. MAVE has four main and unique advantages: First, MAVE is the
largest product attribute value extraction dataset by the number of
attribute-value examples. Second, MAVE includes multi-source representations
from the product, which captures the full product information with high
attribute coverage. Third, MAVE represents a more diverse set of attributes and
values relative to what previous datasets cover. Lastly, MAVE provides a very
challenging zero-shot test set, as we empirically illustrate in the
experiments. We further propose a novel approach that effectively extracts the
attribute value from the multi-source product information. We conduct extensive
experiments with several baselines and show that MAVE is an effective dataset
for attribute value extraction task. It is also a very challenging task on
zero-shot attribute extraction. Data is available at {\it
\url{https://github.com/google-research-datasets/MAVE}}.
- Abstract(参考訳): 属性値抽出(英: attribute value extraction)は、製品情報から興味のある属性の値を識別するタスクである。
製品属性の価値は、カスタマサービスロボット、製品ランキング、検索、レコメンデーションなど、多くのeコマースシナリオにおいて不可欠です。
現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。
本稿では,製品属性値の抽出をより容易にするための新しいデータセットであるmaveを紹介する。
MAVEはAmazonページから220万の商品をキュレートしたもので、1257のユニークなカテゴリに300万の属性値アノテーションがある。
まず、MAVEは属性値の例の数で最大の製品属性値抽出データセットである。
第二に、MAVEは製品からのマルチソース表現を含み、高い属性カバレッジで製品の全情報をキャプチャします。
第3に、MAVEは、以前のデータセットがカバーするものと比較して、より多様な属性と値のセットを表す。
最後に、MAVEは実験で実証的に説明したように、非常に難しいゼロショットテストセットを提供します。
さらに,マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
いくつかのベースラインで広範な実験を行い、MAVEが属性値抽出タスクに有効なデータセットであることを示す。
また、ゼロショット属性抽出の非常に難しいタスクでもある。
データは {\it \url{https://github.com/google-research-datasets/MAVE}}で入手できる。
関連論文リスト
- EAVE: Efficient Product Attribute Value Extraction via Lightweight Sparse-layer Interaction [94.22610101608332]
本稿では,軽量なスパース層間相互作用による効率的な製品属性値抽出(EAVE)手法を提案する。
我々は、製品コンテキストと属性を別々にエンコードするために重いエンコーダを使用します。その結果、コンテキストの非相互作用的なヘビー表現は、すべての属性に対してキャッシュされ、再利用されます。
提案手法は, コンテキストが長く, 属性数が大きい場合, 性能が中立的あるいは限界的に低下した場合に, 顕著な効率向上を実現する。
論文 参考訳(メタデータ) (2024-06-10T23:06:38Z) - ImplicitAVE: An Open-Source Dataset and Multimodal LLMs Benchmark for Implicit Attribute Value Extraction [67.86012624533461]
ImplicitAVEは、暗黙の属性値抽出のための最初の、公開のマルチモーダルデータセットである。
データセットには5つのドメインにわたる68kのトレーニングと1.6kのテストデータが含まれている。
また,マルチモーダル大言語モデル(MLLM)の暗黙的AVEへの適用についても検討する。
論文 参考訳(メタデータ) (2024-04-24T01:54:40Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - Using LLMs for the Extraction and Normalization of Product Attribute Values [47.098255866050835]
本稿では,大規模言語モデル(LLM)を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。
実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2024-03-04T15:39:59Z) - AE-smnsMLC: Multi-Label Classification with Semantic Matching and
Negative Label Sampling for Product Attribute Value Extraction [42.79022954630978]
商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。
以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱われていた。
属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いた分類モデルを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:22:28Z) - Simple and Effective Knowledge-Driven Query Expansion for QA-Based
Product Attribute Extraction [6.752749933406399]
eコマースサイトから価値を抽出する上で重要な課題は、さまざまな製品に対する多数の属性の扱い方だ。
本稿では,QAに基づくAVEに対するクエリ(属性)の応答(値)に基づいた知識駆動型クエリ拡張を提案する。
論文 参考訳(メタデータ) (2022-06-28T19:43:57Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - AdaTag: Multi-Attribute Value Extraction from Product Profiles with
Adaptive Decoding [55.89773725577615]
本稿ではアダプティブデコーディングを用いて属性抽出を行うAdaTagを提案する。
実世界のeコマースデータセットに関する我々の実験は、以前の方法よりも顕著に改善されたことを示している。
論文 参考訳(メタデータ) (2021-06-04T07:54:11Z) - Multimodal Joint Attribute Prediction and Value Extraction for
E-commerce Product [40.46223408546036]
商品属性値は、カスタマサービスロボット、製品レコメンデーション、製品検索など、多くのEコマースシナリオにおいて不可欠である。
現実の世界では、製品の属性値は通常不完全であり、時間とともに変化するため、実用的な応用を著しく妨げている。
本稿では,製品属性を共同で予測し,製品イメージの助けを借りてテキスト製品記述から価値を抽出するマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2020-09-15T15:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。