論文の概要: BEATS: Bootstrapping E-commerce Attribute Taxonomies for Search through Iterative Human-AI Collaboration
- arxiv url: http://arxiv.org/abs/2606.04909v1
- Date: Wed, 03 Jun 2026 14:06:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.805776
- Title: BEATS: Bootstrapping E-commerce Attribute Taxonomies for Search through Iterative Human-AI Collaboration
- Title(参考訳): BEATS: 反復的人間-AIコラボレーションによる検索のためのEコマース属性分類のブートストラップ
- Authors: Yung-Yu Shih, Shang-Yu Su, Tzu-I Ho, Dongzhe Wang, Yun-Nung Chen,
- Abstract要約: BEATSは、スクラッチから製品属性をブートストラップするための、ヒューマン・イン・ザ・ループ LLM フレームワークである。
本システムは楽天台湾で展開され,2,694のサブカテゴリと67,277の属性からなる9つの主要カテゴリに集約されている。
540万以上の製品が生成した属性でタグ付けされており、製品カタログ全体を充実させる計画だ。
- 参考スコア(独自算出の注目度): 16.653517324875384
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: E-commerce platforms in emerging markets often operate with underdeveloped product catalogs that contain only category taxonomies but lack structured attribute schemas. This absence of fine-grained product attributes limits search capabilities -- preventing faceted filtering, degrading query understanding, and weakening semantic representations used by search systems. We present BEATS, a human-in-the-loop LLM framework for bootstrapping product attribute taxonomies entirely from scratch. Our approach extends a multi-stage LLM generation pipeline with two critical production stages: (1) proactive quality checking by model developers to filter erroneous outputs, and (2) human annotation by domain-expert local staff to validate generated attributes. The framework operates iteratively -- prompts at each generation stage are refined based on quality check observations and annotator feedback across successive rounds, progressively improving attribute quality. Once the attribute taxonomy is established, we employ LLMs to perform structured attribute tagging on individual product items, enriching their contextual representations. The enriched catalog directly benefits multiple components of the search system: enabling granular attribute-based filtering, providing structured features for ranking models, and improving semantic representations for dense retrieval. We validate the generated taxonomy by training dense retrieval models on attribute-enriched product data, demonstrating consistent improvements over baselines using original catalog information. Our system has been deployed at Rakuten Taiwan, enriching 9 major categories spanning 2,694 sub-categories with 67,277 generated attributes, and over 5.4 million products have been tagged with the generated attributes, with plans to enrich the entire product catalog.
- Abstract(参考訳): 新興市場のEコマースプラットフォームは、カテゴリー分類のみを含むが構造的な属性スキーマが欠如している未開発の製品カタログで運用されることが多い。
このきめ細かい製品属性の欠如は、検索機能を制限する -- 顔フィルターの防止、クエリ理解の劣化、検索システムで使用されるセマンティック表現の弱化。
BEATSは、製品属性の分類をスクラッチからブートストラップするための、人為的なLLMフレームワークである。
提案手法は多段階のLCM生成パイプラインを拡張し,(1)モデル開発者が誤出力をフィルタリングするための能動的品質チェック,(2)ドメイン専門家による人的アノテーションを用いて生成属性の検証を行う。
フレームワークは反復的に動作します -- 各生成段階でのプロンプトは、連続するラウンドにわたる品質チェックの観察とアノテータからのフィードバックに基づいて洗練され、属性の品質が徐々に向上します。
属性分類が確立したら、LCMを用いて、個々の製品アイテムに構造化属性タグを付け、それらのコンテキスト表現を豊かにする。
この強化されたカタログは、粒度の属性ベースのフィルタリング、ランキングモデルのための構造化された機能の提供、密集した検索のための意味表現の改善など、検索システムの複数のコンポーネントを直接的に活用する。
本研究では,属性富化製品データに基づく高密度検索モデルを訓練することにより,生成した分類を検証し,オリジナルカタログ情報を用いたベースラインに対する一貫した改善を実証する。
我々のシステムは楽天台湾に展開され、2,694のサブカテゴリと67,277の属性からなる9つの主要カテゴリに集約され、540万以上の製品が生成属性でタグ付けされ、製品カタログ全体を強化する計画である。
関連論文リスト
- From Unstructured to Structured: LLM-Guided Attribute Graphs for Entity Search and Ranking [20.966359103135762]
本稿では,Large Language Model (LLM) による属性グラフ構築とグラフ対応LLMランキングを組み合わせた2段階のアプローチを提案する。
オフラインの段階では、構造化されていないテキストから構造化された製品属性を抽出し、カテゴリ対応スキーマを用いた再利用可能な属性グラフを構築する。
オンラインの段階では、検索した候補を、原文ではなくこの構造化された表現を推論してランク付けし、商品単位のトークン使用量を57%削減し、ランキング精度を向上した。
論文 参考訳(メタデータ) (2026-04-30T04:22:20Z) - Multi-Value-Product Retrieval-Augmented Generation for Industrial Product Attribute Value Identification [12.167857724257239]
MVP-RAG(Multi-Value-Product Retrieval-Augmented Generation)を紹介する。
MVP-RAGはPAVIを検索生成タスクと定義している。
まず、同じカテゴリと候補属性値の類似した製品を取得し、次に標準化された属性値を生成する。
論文 参考訳(メタデータ) (2025-09-28T13:29:20Z) - Self-Refinement Strategies for LLM-based Product Attribute Value Extraction [51.45146101802871]
本稿では,製品属性値抽出タスクに2つの自己補充手法を適用した。
実験の結果, 2つの自己補充技術は, 処理コストを大幅に増大させながら, 抽出性能を著しく向上させることができないことがわかった。
開発データを持つシナリオでは、ファインチューニングが最もパフォーマンスが高いのに対して、ファインチューニングの上昇コストは製品記述の量が増加するにつれてバランスがとれる。
論文 参考訳(メタデータ) (2025-01-02T12:55:27Z) - Using LLMs for the Extraction and Normalization of Product Attribute Values [47.098255866050835]
本稿では,大規模言語モデル(LLM)を用いて,製品タイトルや記述から属性値の抽出と正規化を行う可能性について検討する。
実験のために、Web Data Commons - Product Attribute Value extract (WDC-PAVE)ベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2024-03-04T15:39:59Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak
Supervision [93.26737878221073]
オープンワールド環境における属性マイニングの問題点を考察し,新しい属性とその値の抽出を行う。
本稿では、まず属性値候補を生成し、次にそれらを属性のクラスタにグループ化する、原則化されたフレームワークを提案する。
我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。
論文 参考訳(メタデータ) (2022-04-29T04:16:04Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。