論文の概要: GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- arxiv url: http://arxiv.org/abs/2405.10918v1
- Date: Fri, 17 May 2024 17:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:24:17.356423
- Title: GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- Title(参考訳): GenToC: 製品属性値識別のための部分ラベルデータを活用する
- Authors: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal,
- Abstract要約: GenToCは、製品タイトルから属性値ペアを抽出する新しいモデルである。
インド最大のB2B電子商取引プラットフォームであるIndiaMART.comに統合されている。
- 参考スコア(独自算出の注目度): 23.72090728600973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the e-commerce domain, the accurate extraction of attribute-value pairs from product listings (e.g., Brand: Apple) is crucial for enhancing search and recommendation systems. The automation of this extraction process is challenging due to the vast diversity of product categories and their respective attributes, compounded by the lack of extensive, accurately annotated training datasets and the demand for low latency to meet the real-time needs of e-commerce platforms. To address these challenges, we introduce GenToC, a novel two-stage model for extracting attribute-value pairs from product titles. GenToC is designed to train with partially-labeled data, leveraging incomplete attribute-value pairs and obviating the need for a fully annotated dataset. Moreover, we introduce a bootstrapping method that enables GenToC to progressively refine and expand its training dataset. This enhancement substantially improves the quality of data available for training other neural network models that are typically faster but are inherently less capable than GenToC in terms of their capacity to handle partially-labeled data. By supplying an enriched dataset for training, GenToC significantly advances the performance of these alternative models, making them more suitable for real-time deployment. Our results highlight the unique capability of GenToC to learn from a limited set of labeled data and to contribute to the training of more efficient models, marking a significant leap forward in the automated extraction of attribute-value pairs from product titles. GenToC has been successfully integrated into India's largest B2B e-commerce platform, IndiaMART.com, achieving a significant increase of 21.1% in recall over the existing deployed system while maintaining a high precision of 89.5% in this challenging task.
- Abstract(参考訳): 電子商取引分野では、商品リスト(例えばブランド:アップル)から属性値対を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。
この抽出プロセスの自動化は、製品カテゴリとその属性が多様であり、広範囲で正確に注釈付けされたトレーニングデータセットの欠如と、Eコマースプラットフォームのリアルタイムニーズを満たすための低レイテンシの要求が混ざり合っているため、困難である。
これらの課題に対処するために、製品タイトルから属性値対を抽出する新しい2段階モデルであるGenToCを紹介する。
GenToCは、部分的にラベル付けされたデータでトレーニングし、不完全な属性値ペアを活用し、完全なアノテーション付きデータセットの必要性を回避するように設計されている。
さらに,GenToCが学習データセットを段階的に洗練・拡張できるブートストラップ方式を導入する。
この強化により、通常は高速だが部分的にラベル付けされたデータを扱う能力の点でGenToCよりも本質的に低い他のニューラルネットワークモデルのトレーニングで利用可能なデータ品質が大幅に向上する。
トレーニング用に豊富なデータセットを提供することで、GenToCはこれらの代替モデルのパフォーマンスを大幅に向上し、リアルタイムデプロイメントにより適している。
我々は,GenToCが限定されたラベル付きデータから学習し,より効率的なモデルのトレーニングに寄与するユニークな能力を強調した。
GenToCはインド最大のB2B電子商取引プラットフォームであるIndiaMART.comに統合され、既存の配備システムに対するリコールで21.1%の大幅な増加を達成した。
関連論文リスト
- Expansive Synthesis: Generating Large-Scale Datasets from Minimal Samples [13.053285552524052]
本稿では,最小限のサンプルから高忠実度データセットを生成する革新的な拡張合成モデルを提案する。
生成したデータセットの分類器をトレーニングし,より大規模でオリジナルなデータセットでトレーニングされたパフォーマンストリバーサを比較して,拡張的合成を検証する。
論文 参考訳(メタデータ) (2024-06-25T02:59:02Z) - DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。
DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文 参考訳(メタデータ) (2024-05-16T15:30:18Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - One-Shot Federated Learning with Classifier-Guided Diffusion Models [44.604485649167216]
ワンショット・フェデレーション・ラーニング (OSFL) は, 通信コストの低さから近年注目されている。
本稿では,OSFLに拡散モデルがもたらす新たな機会を探求し,FedCADOを提案する。
FedCADOはクライアントのディストリビューションに準拠したデータを生成し、その後、サーバ上で集約されたモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。