論文の概要: OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision
- arxiv url: http://arxiv.org/abs/2204.13874v1
- Date: Fri, 29 Apr 2022 04:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 02:34:34.319890
- Title: OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision
- Title(参考訳): OA-Mine:Eコマース製品のオープンワールド属性マイニング
- Authors: Xinyang Zhang, Chenwei Zhang, Xian Li, Xin Luna Dong, Jingbo Shang,
Christos Faloutsos, Jiawei Han
- Abstract要約: オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
- 参考スコア(独自算出の注目度): 93.26737878221073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic extraction of product attributes from their textual descriptions is
essential for online shopper experience. One inherent challenge of this task is
the emerging nature of e-commerce products -- we see new types of products with
their unique set of new attributes constantly. Most prior works on this matter
mine new values for a set of known attributes but cannot handle new attributes
that arose from constantly changing data. In this work, we study the attribute
mining problem in an open-world setting to extract novel attributes and their
values. Instead of providing comprehensive training data, the user only needs
to provide a few examples for a few known attribute types as weak supervision.
We propose a principled framework that first generates attribute value
candidates and then groups them into clusters of attributes. The candidate
generation step probes a pre-trained language model to extract phrases from
product titles. Then, an attribute-aware fine-tuning method optimizes a
multitask objective and shapes the language model representation to be
attribute-discriminative. Finally, we discover new attributes and values
through the self-ensemble of our framework, which handles the open-world
challenge. We run extensive experiments on a large distantly annotated
development set and a gold standard human-annotated test set that we collected.
Our model significantly outperforms strong baselines and can generalize to
unseen attributes and product types.
- Abstract(参考訳): オンラインショッピング体験において,テキスト記述から商品属性の自動抽出が不可欠である。
このタスクに固有の課題のひとつは、eコマース製品の新たな性質です。
この問題に関するほとんどの以前の研究は、既知の属性のセットに対する新しい値をマイニングするが、絶えず変化するデータから生じる新しい属性を処理できない。
本研究では,新しい属性とその値を抽出するオープンワールド設定における属性マイニング問題について検討する。
総合的なトレーニングデータを提供する代わりに、ユーザーは弱い監督として、いくつかの既知の属性タイプの例を提供するだけでよい。
まず属性値候補を生成し、次に属性のクラスタにグループ化する原則付きフレームワークを提案する。
候補生成ステップは、事前訓練された言語モデルを調べて製品タイトルからフレーズを抽出する。
そして,属性認識による微調整手法により,マルチタスク対象を最適化し,言語モデル表現を属性識別対象とする。
最後に、オープンワールドの課題を扱うフレームワークの自己認識を通じて、新たな属性と値を見つけます。
我々は、遠く離れた大きな注釈付き開発セットと、収集した金標準の人間注釈付きテストセットについて広範な実験を行った。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
関連論文リスト
- EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - SAGE: Structured Attribute Value Generation for Billion-Scale Product
Catalogs [1.1184789007828977]
SAGEは、世界規模のeコマースカタログにまたがる商品の属性値を推測するためのジェネレーティブLLMである。
本稿では,属性値予測問題をSeq2Seq要約タスクとして新たに定式化する。
SAGEは、eコマースカタログの実践的な設定で生じる属性値予測タスクのすべての側面に取り組むことができる最初の方法である。
論文 参考訳(メタデータ) (2023-09-12T02:24:16Z) - Large Scale Generative Multimodal Attribute Extraction for E-commerce
Attributes [23.105116746332506]
eコマースのウェブサイト(Amazonなど)には、製品ページには構造化され、構造化されていない情報(テキストと画像)が多数存在している。
販売業者は、商品の属性(色、サイズなど)のラベルやラベルを間違えたりしないことが多い。
3つのキーコンポーネントからなる textbfMXT を用いて,この問題に対するスケーラブルなソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:21:45Z) - Towards Open-World Product Attribute Mining: A Lightly-Supervised
Approach [60.52087154731358]
電子商取引製品における属性マイニングのための新しいタスク設定を提案する。
我々は、既存の種型の属性語彙を拡張し、また、新しい属性タイプを自動的に発見することを目的としている。
提案手法は,既存型の属性を最大12倍まで拡張し,新しいタイプの39%の値を検出する。
論文 参考訳(メタデータ) (2023-05-26T11:51:31Z) - MAVE: A Product Dataset for Multi-source Attribute Value Extraction [10.429320377835241]
製品属性値の抽出をより容易にするための新しいデータセットであるMAVEを紹介する。
MAVEはAmazonページから220万の商品のキュレートされたセットで構成され、1257のユニークなカテゴリに300万の属性値アノテーションがある。
マルチソース製品情報から属性値を効果的に抽出する手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T06:48:31Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。