論文の概要: Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data
- arxiv url: http://arxiv.org/abs/2006.08779v3
- Date: Tue, 23 Jun 2020 03:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:40:05.451267
- Title: Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data
- Title(参考訳): 限定ラベルデータを用いたeコマースカタログにおけるテキスト属性値の自動検証
- Authors: Yaqing Wang, Yifan Ethan Xu, Xian Li, Xin Luna Dong and Jing Gao
- Abstract要約: そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
- 参考スコア(独自算出の注目度): 61.789797281676606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product catalogs are valuable resources for eCommerce website. In the
catalog, a product is associated with multiple attributes whose values are
short texts, such as product name, brand, functionality and flavor. Usually
individual retailers self-report these key values, and thus the catalog
information unavoidably contains noisy facts. Although existing deep neural
network models have shown success in conducting cross-checking between two
pieces of texts, their success has to be dependent upon a large set of quality
labeled data, which are hard to obtain in this validation task: products span a
variety of categories. To address the aforementioned challenges, we propose a
novel meta-learning latent variable approach, called MetaBridge, which can
learn transferable knowledge from a subset of categories with limited labeled
data and capture the uncertainty of never-seen categories with unlabeled data.
More specifically, we make the following contributions. (1) We formalize the
problem of validating the textual attribute values of products from a variety
of categories as a natural language inference task in the few-shot learning
setting, and propose a meta-learning latent variable model to jointly process
the signals obtained from product profiles and textual attribute values. (2) We
propose to integrate meta learning and latent variable in a unified model to
effectively capture the uncertainty of various categories. (3) We propose a
novel objective function based on latent variable model in the few-shot
learning setting, which ensures distribution consistency between unlabeled and
labeled data and prevents overfitting by sampling from the learned
distribution. Extensive experiments on real eCommerce datasets from hundreds of
categories demonstrate the effectiveness of MetaBridge on textual attribute
validation and its outstanding performance compared with state-of-the-art
approaches.
- Abstract(参考訳): 製品カタログはeコマースウェブサイトにとって貴重なリソースである。
カタログでは、製品は製品名、ブランド、機能、フレーバーなど、短いテキストの値を持つ複数の属性に関連付けられている。
通常、個々の小売業者は、これらの重要な値を自己報告するので、カタログ情報は、不可避に騒がしい事実を含んでいる。
既存のディープニューラルネットワークモデルは、2つのテキスト間でクロスチェックを行うことに成功したが、その成功は大量の品質ラベル付きデータに依存する必要があり、この検証タスクでは入手が困難である。
上記の課題に対処するため,MetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案し,ラベル付きデータに制限のあるカテゴリのサブセットから伝達可能な知識を学習し,ラベル付きデータに見つからないカテゴリの不確実性を捉える。
より具体的には、次のような貢献をします。
1)多種多様なカテゴリから得られた製品のテキスト属性値を自然言語推論タスクとして検証する問題を、マイナショット学習環境において定式化し、製品プロファイルとテキスト属性値から得られた信号を共同で処理するメタラーニング潜在変数モデルを提案する。
2)様々なカテゴリの不確かさを効果的に捉えるために,統一モデルにおけるメタ学習と潜在変数の統合を提案する。
3) ラベル付きデータとラベル付きデータとの分布一貫性を確保し, 学習した分布からのサンプリングによる過剰フィッティングを防止するために, 潜在変数モデルに基づく新しい目的関数を提案する。
数百のカテゴリの実際のeコマースデータセットに関する大規模な実験は、MetaBridgeのテキスト属性バリデーションの有効性と、最先端のアプローチと比較して優れたパフォーマンスを示している。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - AE-smnsMLC: Multi-Label Classification with Semantic Matching and
Negative Label Sampling for Product Attribute Value Extraction [42.79022954630978]
商品属性値抽出は、製品検索やレコメンデーションなどのeコマースにおける多くの現実世界アプリケーションにおいて重要な役割を果たす。
以前の方法では、製品テキスト内の値の位置にもっとアノテーションを必要とするシーケンスラベリングタスクとして扱われていた。
属性値抽出のためのセマンティックマッチングと負ラベルサンプリングを用いた分類モデルを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:22:28Z) - Knowledge-Enhanced Multi-Label Few-Shot Product Attribute-Value
Extraction [4.511923587827302]
既存の属性値抽出モデルは、トレーニングのために大量のラベル付きデータを必要とする。
新しい属性値ペアを持つ新製品は、現実世界のeコマースで毎日市場に出回っている。
そこで我々は,ネットワークをベースとした知識強化学習フレームワーク(KEAF)を提案し,より差別的なプロトタイプを学習する。
論文 参考訳(メタデータ) (2023-08-16T14:58:12Z) - Multimodal Prompt Learning for Product Title Generation with Extremely
Limited Labels [66.54691023795097]
本稿では,ラベルが限定された新商品のタイトルを生成するためのプロンプトベースアプローチ,すなわちマルチモーダル・プロンプト学習フレームワークを提案する。
我々は、新しい製品の対応する特性と書体を維持するために、異なるモダリティから多モーダルなプロンプトのセットを構築する。
トレーニング用ラベル付きデータの完全化により,本手法は最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-07-05T00:40:40Z) - Label2Label: A Language Modeling Framework for Multi-Attribute Learning [93.68058298766739]
Label2Labelは、言語モデリングの観点からのマルチ属性予測の最初の試みである。
NLPにおける事前学習言語モデルの成功に触発されたLabel2Labelは、イメージ条件付きマスキング言語モデルを導入した。
我々の直感は、ニューラルネットワークがコンテキストと残りの属性ヒントに基づいて欠落した属性を推測できる場合、インスタンスの属性関係がよく把握されるということである。
論文 参考訳(メタデータ) (2022-07-18T15:12:33Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - Multi-class Text Classification using BERT-based Active Learning [4.028503203417233]
顧客トランザクションを複数のカテゴリに分類することは、異なる顧客セグメントの市場ニーズを理解するのに役立つ。
BERTベースのモデルは自然言語理解でうまく機能することが証明されています。
マルチクラステキスト分類における様々なアクティブラーニング戦略間でBERTの性能をベンチマークする。
論文 参考訳(メタデータ) (2021-04-27T19:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。