論文の概要: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- arxiv url: http://arxiv.org/abs/2405.10918v2
- Date: Mon, 18 Nov 2024 06:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:40.295581
- Title: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- Title(参考訳): 製品属性値同定のための部分ラベル付きデータの活用フレームワーク
- Authors: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal,
- Abstract要約: GenToCは、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルである。
既存の最先端モデルよりも優れており、正確な抽出回数が56.3%増加した。
私たちのモデルは、インド最大のB2BeコマースプラットフォームであるIndiaMARTに統合されました。
- 参考スコア(独自算出の注目度): 23.72090728600973
- License:
- Abstract: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.
- Abstract(参考訳): 電子商取引分野では、製品タイトルとユーザ検索クエリから属性値対(例えば、ブランド:Apple)を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。
このタスクにおけるニューラルネットワークの大きな課題は、高品質なトレーニングデータの欠如である。
我々は、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルであるGenToCを導入し、完全に注釈付けされたデータセットの必要性を排除した。
GenToCは、潜在的な属性を特定するためにマーカー拡張生成モデルを使用し、続いて各属性の関連値を決定するトークン分類モデルを使用する。
GenToCは既存の最先端モデルより優れており、正確な抽出回数が56.3%増加した。
さらに、GenToCを使用してトレーニングデータセットを再生し、属性値アノテーションを拡張する。
このブートストラップは、通常より高速だが部分的にラベル付けされたデータを扱う能力の低い他の標準NERモデルのトレーニングデータ品質を大幅に改善し、GenToCに匹敵するパフォーマンスを実現する。
我々は,GenToCが限定された部分ラベル付きデータから学習できることを実証し,より効率的なモデルのトレーニングを改善し,属性値ペアの自動抽出を推し進めた。
最終的に、我々のモデルはインド最大のB2B電子商取引プラットフォームであるIndiaMARTに統合され、既存のデプロイシステム上で正確な属性値ペアの数を20.2%増加させ、89.5%の精度を達成した。
関連論文リスト
- DiverGen: Improving Instance Segmentation by Learning Wider Data Distribution with More Diverse Generative Data [48.31817189858086]
生成データは、モデルが学習できるデータ分布を拡大し、過剰適合を軽減できると主張している。
DiverGenは強力なX-Pasteよりも優れており、すべてのカテゴリで+1.1ボックスAPと+1.1マスクAPを達成でき、まれなカテゴリでは+1.9ボックスAPと+2.5マスクAPを達成できる。
論文 参考訳(メタデータ) (2024-05-16T15:30:18Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - One-Shot Federated Learning with Classifier-Guided Diffusion Models [44.604485649167216]
ワンショット・フェデレーション・ラーニング (OSFL) は, 通信コストの低さから近年注目されている。
本稿では,OSFLに拡散モデルがもたらす新たな機会を探求し,FedCADOを提案する。
FedCADOはクライアントのディストリビューションに準拠したデータを生成し、その後、サーバ上で集約されたモデルをトレーニングします。
論文 参考訳(メタデータ) (2023-11-15T11:11:25Z) - Data-Centric Long-Tailed Image Recognition [49.90107582624604]
ロングテールモデルは高品質なデータに対する強い需要を示している。
データ中心のアプローチは、モデルパフォーマンスを改善するために、データの量と品質の両方を強化することを目的としています。
現在、情報強化の有効性を説明するメカニズムに関する研究が不足している。
論文 参考訳(メタデータ) (2023-11-03T06:34:37Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Data Selection for Efficient Model Update in Federated Learning [0.07614628596146598]
本稿では,グローバルモデルのトレーニングに必要なローカルデータの量を削減することを提案する。
本手法では, 局所データの特徴により敏感な部分と, 一般特徴抽出のための下位部分と, 上位部分とにモデルを分割する。
実験の結果,クライアントデータの特徴をグローバルモデルに転送できる地域データは1%未満であることがわかった。
論文 参考訳(メタデータ) (2021-11-05T14:07:06Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - The Imaginative Generative Adversarial Network: Automatic Data
Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action
Recognition [27.795763107984286]
本稿では、入力データの分布を近似し、この分布から新しいデータをサンプリングする新しい自動データ拡張モデルを提案する。
以上の結果から,拡張戦略は訓練が高速であり,ニューラルネットワークと最先端手法の両方の分類精度を向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-05-27T11:07:09Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。