論文の概要: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- arxiv url: http://arxiv.org/abs/2405.10918v2
- Date: Mon, 18 Nov 2024 06:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:40.295581
- Title: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
- Title(参考訳): 製品属性値同定のための部分ラベル付きデータの活用フレームワーク
- Authors: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal,
- Abstract要約: GenToCは、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルである。
既存の最先端モデルよりも優れており、正確な抽出回数が56.3%増加した。
私たちのモデルは、インド最大のB2BeコマースプラットフォームであるIndiaMARTに統合されました。
- 参考スコア(独自算出の注目度): 23.72090728600973
- License:
- Abstract: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.
- Abstract(参考訳): 電子商取引分野では、製品タイトルとユーザ検索クエリから属性値対(例えば、ブランド:Apple)を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。
このタスクにおけるニューラルネットワークの大きな課題は、高品質なトレーニングデータの欠如である。
我々は、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルであるGenToCを導入し、完全に注釈付けされたデータセットの必要性を排除した。
GenToCは、潜在的な属性を特定するためにマーカー拡張生成モデルを使用し、続いて各属性の関連値を決定するトークン分類モデルを使用する。
GenToCは既存の最先端モデルより優れており、正確な抽出回数が56.3%増加した。
さらに、GenToCを使用してトレーニングデータセットを再生し、属性値アノテーションを拡張する。
このブートストラップは、通常より高速だが部分的にラベル付けされたデータを扱う能力の低い他の標準NERモデルのトレーニングデータ品質を大幅に改善し、GenToCに匹敵するパフォーマンスを実現する。
我々は,GenToCが限定された部分ラベル付きデータから学習できることを実証し,より効率的なモデルのトレーニングを改善し,属性値ペアの自動抽出を推し進めた。
最終的に、我々のモデルはインド最大のB2B電子商取引プラットフォームであるIndiaMARTに統合され、既存のデプロイシステム上で正確な属性値ペアの数を20.2%増加させ、89.5%の精度を達成した。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。
本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文 参考訳(メタデータ) (2024-04-04T00:49:05Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Ego2Hands: A Dataset for Egocentric Two-hand Segmentation and Detection [1.0742675209112622]
Ego2Handsは、大規模なRGBベースの手分割/検出データセットで、半自動注釈付きである。
定量的分析のために,既存のベンチマークの量,多様性,アノテーションの精度を大幅に上回る評価セットを手作業でアノテートした。
論文 参考訳(メタデータ) (2020-11-14T10:12:35Z) - Joint Item Recommendation and Attribute Inference: An Adaptive Graph
Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。
ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。
本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文 参考訳(メタデータ) (2020-05-25T10:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。