論文の概要: GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- arxiv url: http://arxiv.org/abs/2405.10918v1
- Date: Fri, 17 May 2024 17:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 15:24:17.356423
- Title: GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- Title(参考訳): GenToC: 製品属性値識別のための部分ラベルデータを活用する
- Authors: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal,
- Abstract要約: GenToCは、製品タイトルから属性値ペアを抽出する新しいモデルである。
インド最大のB2B電子商取引プラットフォームであるIndiaMART.comに統合されている。
- 参考スコア(独自算出の注目度): 23.72090728600973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the e-commerce domain, the accurate extraction of attribute-value pairs from product listings (e.g., Brand: Apple) is crucial for enhancing search and recommendation systems. The automation of this extraction process is challenging due to the vast diversity of product categories and their respective attributes, compounded by the lack of extensive, accurately annotated training datasets and the demand for low latency to meet the real-time needs of e-commerce platforms. To address these challenges, we introduce GenToC, a novel two-stage model for extracting attribute-value pairs from product titles. GenToC is designed to train with partially-labeled data, leveraging incomplete attribute-value pairs and obviating the need for a fully annotated dataset. Moreover, we introduce a bootstrapping method that enables GenToC to progressively refine and expand its training dataset. This enhancement substantially improves the quality of data available for training other neural network models that are typically faster but are inherently less capable than GenToC in terms of their capacity to handle partially-labeled data. By supplying an enriched dataset for training, GenToC significantly advances the performance of these alternative models, making them more suitable for real-time deployment. Our results highlight the unique capability of GenToC to learn from a limited set of labeled data and to contribute to the training of more efficient models, marking a significant leap forward in the automated extraction of attribute-value pairs from product titles. GenToC has been successfully integrated into India's largest B2B e-commerce platform, IndiaMART.com, achieving a significant increase of 21.1% in recall over the existing deployed system while maintaining a high precision of 89.5% in this challenging task.
- Abstract(参考訳): 電子商取引分野では、商品リスト(例えばブランド:アップル)から属性値対を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。
この抽出プロセスの自動化は、製品カテゴリとその属性が多様であり、広範囲で正確に注釈付けされたトレーニングデータセットの欠如と、Eコマースプラットフォームのリアルタイムニーズを満たすための低レイテンシの要求が混ざり合っているため、困難である。
これらの課題に対処するために、製品タイトルから属性値対を抽出する新しい2段階モデルであるGenToCを紹介する。
GenToCは、部分的にラベル付けされたデータでトレーニングし、不完全な属性値ペアを活用し、完全なアノテーション付きデータセットの必要性を回避するように設計されている。
さらに,GenToCが学習データセットを段階的に洗練・拡張できるブートストラップ方式を導入する。
この強化により、通常は高速だが部分的にラベル付けされたデータを扱う能力の点でGenToCよりも本質的に低い他のニューラルネットワークモデルのトレーニングで利用可能なデータ品質が大幅に向上する。
トレーニング用に豊富なデータセットを提供することで、GenToCはこれらの代替モデルのパフォーマンスを大幅に向上し、リアルタイムデプロイメントにより適している。
我々は,GenToCが限定されたラベル付きデータから学習し,より効率的なモデルのトレーニングに寄与するユニークな能力を強調した。
GenToCはインド最大のB2B電子商取引プラットフォームであるIndiaMART.comに統合され、既存の配備システムに対するリコールで21.1%の大幅な増加を達成した。
関連論文リスト
- A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Ego2Hands: A Dataset for Egocentric Two-hand Segmentation and Detection [1.0742675209112622]
Ego2Handsは、大規模なRGBベースの手分割/検出データセットで、半自動注釈付きである。
定量的分析のために,既存のベンチマークの量,多様性,アノテーションの精度を大幅に上回る評価セットを手作業でアノテートした。
論文 参考訳(メタデータ) (2020-11-14T10:12:35Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。