Fugu-MT 論文翻訳(概要): A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

論文の概要: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

arxiv url: http://arxiv.org/abs/2405.10918v2
Date: Mon, 18 Nov 2024 06:50:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.455417
Title: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
Title（参考訳）: 製品属性値同定のための部分ラベル付きデータの活用フレームワーク
Authors: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal,
Abstract要約: GenToCは、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルである。既存の最先端モデルよりも優れており、正確な抽出回数が56.3%増加した。私たちのモデルは、インド最大のB2BeコマースプラットフォームであるIndiaMARTに統合されました。
参考スコア（独自算出の注目度）: 23.72090728600973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.
Abstract（参考訳）: 電子商取引分野では、製品タイトルとユーザ検索クエリから属性値対(例えば、ブランド:Apple)を正確に抽出することが、検索とレコメンデーションシステムの強化に不可欠である。このタスクにおけるニューラルネットワークの大きな課題は、高品質なトレーニングデータの欠如である。我々は、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルであるGenToCを導入し、完全に注釈付けされたデータセットの必要性を排除した。 GenToCは、潜在的な属性を特定するためにマーカー拡張生成モデルを使用し、続いて各属性の関連値を決定するトークン分類モデルを使用する。 GenToCは既存の最先端モデルより優れており、正確な抽出回数が56.3%増加した。さらに、GenToCを使用してトレーニングデータセットを再生し、属性値アノテーションを拡張する。このブートストラップは、通常より高速だが部分的にラベル付けされたデータを扱う能力の低い他の標準NERモデルのトレーニングデータ品質を大幅に改善し、GenToCに匹敵するパフォーマンスを実現する。我々は,GenToCが限定された部分ラベル付きデータから学習できることを実証し,より効率的なモデルのトレーニングを改善し,属性値ペアの自動抽出を推し進めた。最終的に、我々のモデルはインド最大のB2B電子商取引プラットフォームであるIndiaMARTに統合され、既存のデプロイシステム上で正確な属性値ペアの数を20.2%増加させ、89.5%の精度を達成した。

関連論文リスト

OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
Generative Hints [0.0]
本稿では,入力空間全体において既知の不変性を直接的に適用する学習手法である生成ヒントを提案する。生成的ヒントでは、トレーニングデータセットは完全にラベル付けされているが、そのモデルは、分類とヒント目的の両方に基づいて半教師付きで訓練される。データセット、アーキテクチャ、損失関数全体にわたって、生成ヒントは、同じプロパティを学ぶとき、標準データ拡張よりも一貫して優れています。
論文参考訳（メタデータ） (2025-11-04T19:31:36Z)
Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。 CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文参考訳（メタデータ） (2025-01-13T18:59:48Z)
A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文参考訳（メタデータ） (2024-09-09T18:10:05Z)
Predictive Analytics of Varieties of Potatoes [2.336821989135698]
本研究では, 育種試験におけるサツマイモクローンの選択プロセスの向上を目的とした, 機械学習アルゴリズムの適用について検討する。本研究は, 高収率, 耐病性, 耐気候性ポテト品種を効率的に同定することの課題に対処する。
論文参考訳（メタデータ） (2024-04-04T00:49:05Z)
Enhanced E-Commerce Attribute Extraction: Innovating with Decorative Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文参考訳（メタデータ） (2023-12-09T08:26:30Z)
JPAVE: A Generation and Classification-based Model for Joint Product Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文参考訳（メタデータ） (2023-11-07T18:36:16Z)
TRIAGE: Characterizing and auditing training data for improved regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。 TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。 TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文参考訳（メタデータ） (2023-10-29T10:31:59Z)
Benchmarking and Analyzing Generative Data for Visual Recognition [95.69499648941196]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文参考訳（メタデータ） (2023-07-25T17:59:59Z)
Learning brain MRI quality control: a multi-factorial generalization problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文参考訳（メタデータ） (2022-05-31T15:46:44Z)
MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。 MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文参考訳（メタデータ） (2021-12-27T16:16:35Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)
Ego2Hands: A Dataset for Egocentric Two-hand Segmentation and Detection [1.0742675209112622]
Ego2Handsは、大規模なRGBベースの手分割/検出データセットで、半自動注釈付きである。定量的分析のために,既存のベンチマークの量,多様性,アノテーションの精度を大幅に上回る評価セットを手作業でアノテートした。
論文参考訳（メタデータ） (2020-11-14T10:12:35Z)
Joint Item Recommendation and Attribute Inference: An Adaptive Graph Convolutional Network Approach [61.2786065744784]
レコメンデーションシステムでは、ユーザとアイテムは属性に関連付けられ、ユーザはアイテムの好みを表示する。ユーザ(item)属性をアノテートすることは労働集約的なタスクであるため、属性値が欠落している多くの属性値と不完全であることが多い。本稿では,共同項目推薦と属性推論のための適応グラフ畳み込みネットワーク(AGCN)アプローチを提案する。
論文参考訳（メタデータ） (2020-05-25T10:50:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。