論文の概要: Attribute-Aware Controlled Product Generation with LLMs for E-commerce
- arxiv url: http://arxiv.org/abs/2601.04200v1
- Date: Fri, 05 Dec 2025 11:12:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.597829
- Title: Attribute-Aware Controlled Product Generation with LLMs for E-commerce
- Title(参考訳): 電子商取引用LCMを用いた属性対応製品生成
- Authors: Virginia Negri, Víctor Martínez Gómez, Sergio A. Balanya, Subburam Rajaram,
- Abstract要約: 本稿では,Large Language Models (LLMs) を用いた合成eコマース製品データ生成のための体系的アプローチを提案する。
2000年の合成製品の人間による評価は、99.6%が自然と評価され、96.5%が有効な属性値を含み、90%以上が一貫した属性使用を示している。
当社のフレームワークは,特に低リソースシナリオにおいて,Eコマースデータセットを拡張するための実用的なソリューションを提供します。
- 参考スコア(独自算出の注目度): 0.09799637101641147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product information extraction is crucial for e-commerce services, but obtaining high-quality labeled datasets remains challenging. We present a systematic approach for generating synthetic e-commerce product data using Large Language Models (LLMs), introducing a controlled modification framework with three strategies: attribute-preserving modification, controlled negative example generation, and systematic attribute removal. Using a state-of-the-art LLM with attribute-aware prompts, we enforce store constraints while maintaining product coherence. Human evaluation of 2000 synthetic products demonstrates high effectiveness, with 99.6% rated as natural, 96.5% containing valid attribute values, and over 90% showing consistent attribute usage. On the public MAVE dataset, our synthetic data achieves 60.5% accuracy, performing on par with real training data (60.8%) and significantly improving upon the 13.4% zero-shot baseline. Hybrid configurations combining synthetic and real data further improve performance, reaching 68.8% accuracy. Our framework provides a practical solution for augmenting e-commerce datasets, particularly valuable for low-resource scenarios.
- Abstract(参考訳): 製品情報抽出はeコマースサービスにとって不可欠だが、高品質なラベル付きデータセットを取得することは依然として難しい。
本稿では,Large Language Models (LLMs) を用いて合成eコマース製品データを生成するための体系的アプローチを提案する。
属性認識プロンプトを備えた最先端のLCMを用いて,製品のコヒーレンスを維持しながら,ストア制約を強制する。
2000年の合成製品の人間による評価は、99.6%が自然と評価され、96.5%が有効な属性値を含み、90%以上が一貫した属性使用を示している。
パブリックMAVEデータセットでは、我々の合成データは60.5%の精度で、実際のトレーニングデータ(60.8%)と同等に動作し、13.4%のゼロショットベースラインで大幅に改善されている。
合成データと実データを組み合わせたハイブリッドな構成によりパフォーマンスが向上し、68.8%の精度に達した。
当社のフレームワークは,特に低リソースシナリオにおいて,Eコマースデータセットを拡張するための実用的なソリューションを提供します。
関連論文リスト
- Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification [23.72090728600973]
GenToCは、部分的にラベル付けされたデータで直接トレーニングするために設計されたモデルである。
既存の最先端モデルよりも優れており、正確な抽出回数が56.3%増加した。
私たちのモデルは、インド最大のB2BeコマースプラットフォームであるIndiaMARTに統合されました。
論文 参考訳(メタデータ) (2024-05-17T17:09:45Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。