論文の概要: TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification
- arxiv url: http://arxiv.org/abs/2501.03835v2
- Date: Sat, 08 Feb 2025 11:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:41.261549
- Title: TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification
- Title(参考訳): TACLR: 産業製品属性値同定のためのスケーラブルで効率的な検索手法
- Authors: Yindu Su, Huike Zou, Lin Sun, Ting Zhang, Haiyang Yang, Liyu Chen, David Lo, Qingheng Zhang, Shuguang Han, Jufeng Chen,
- Abstract要約: 製品属性値識別(PAVI)の最初の検索手法であるTACLRを紹介する。
製品プロファイルと候補値を埋め込みに符号化し、アイテム埋め込みと類似性に基づいて値を取得することにより、情報検索タスクとしてPAVIを定式化する。
1)正規化された出力を生成しながら暗黙的およびOOD値を効果的に処理し、(2)数千のカテゴリ、数万の属性、および数百万の値にスケールし、(3)高負荷の産業シナリオに対する効率的な推論をサポートする。
- 参考スコア(独自算出の注目度): 19.911923049421137
- License:
- Abstract: Product Attribute Value Identification (PAVI) involves identifying attribute values from product profiles, a key task for improving product search, recommendations, and business analytics on e-commerce platforms. However, existing PAVI methods face critical challenges, such as inferring implicit values, handling out-of-distribution (OOD) values, and producing normalized outputs. To address these limitations, we introduce Taxonomy-Aware Contrastive Learning Retrieval (TACLR), the first retrieval-based method for PAVI. TACLR formulates PAVI as an information retrieval task by encoding product profiles and candidate values into embeddings and retrieving values based on their similarity to the item embedding. It leverages contrastive training with taxonomy-aware hard negative sampling and employs adaptive inference with dynamic thresholds. TACLR offers three key advantages: (1) it effectively handles implicit and OOD values while producing normalized outputs; (2) it scales to thousands of categories, tens of thousands of attributes, and millions of values; and (3) it supports efficient inference for high-load industrial scenarios. Extensive experiments on proprietary and public datasets validate the effectiveness and efficiency of TACLR. Moreover, it has been successfully deployed in a real-world e-commerce platform, processing millions of product listings daily while supporting dynamic, large-scale attribute taxonomies.
- Abstract(参考訳): 製品属性値識別(PAVI)には、製品プロファイルからの属性値の識別、製品検索の改善、レコメンデーション、eコマースプラットフォームでのビジネス分析などが含まれる。
しかし、既存のPAVIメソッドは、暗黙の値の推測、配布外値(OOD)の処理、正規化された出力の生成など、重要な課題に直面している。
これらの制約に対処するため,PAVI の検索手法である TACLR (Taxonomy-Aware Contrastive Learning Retrieval) を導入する。
TACLRは、製品プロファイルと候補値を埋め込みに符号化し、アイテム埋め込みと類似性に基づいて値を取得することにより、情報検索タスクとしてPAVIを定式化する。
分類学を意識したハードネガティブサンプリングによる対照的なトレーニングを活用し、動的しきい値による適応推論を採用する。
TACLRは、(1)正規化された出力を生成しながら暗黙的およびOOD値を効果的に処理し、(2)数千のカテゴリ、数千の属性、および数百万の値にスケールし、(3)高負荷の産業シナリオに対する効率的な推論をサポートする。
プロプライエタリおよびパブリックデータセットに関する大規模な実験は、TACLRの有効性と効率を検証している。
さらに、現実世界のEコマースプラットフォームにデプロイされ、動的で大規模な属性分類をサポートしながら、何百万もの製品リストを毎日処理しています。
関連論文リスト
- An Empirical Comparison of Generative Approaches for Product Attribute-Value Identification [25.890927969633196]
本稿では,製品属性と価値同定(PAVI)について,これまでで最も包括的な評価を行っている。
3つのデータセット上での微調整エンコーダデコーダモデルに基づく3つの属性値生成戦略を比較した。
実験により、計算効率のよいエンドツーエンドのAVGアプローチは、他の戦略よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-01T10:02:17Z) - EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM [52.016009472409166]
EIVENは暗黙的な属性値抽出のためのデータおよびパラメータ効率の良い生成フレームワークである。
本稿では,モデル混同を減らすための新しい学習・比較手法を提案する。
実験の結果,EIVENは暗黙的属性値の抽出において既存の手法よりも有意に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-13T03:15:56Z) - Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。