論文の概要: Text-Based Product Matching -- Semi-Supervised Clustering Approach
- arxiv url: http://arxiv.org/abs/2402.10091v1
- Date: Thu, 1 Feb 2024 18:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 12:39:35.076583
- Title: Text-Based Product Matching -- Semi-Supervised Clustering Approach
- Title(参考訳): テキストベースの製品マッチング-半スーパービジョンクラスタリングアプローチ
- Authors: Alicja Martinek, Szymon {\L}ukasik, Amir H. Gandomi
- Abstract要約: 本稿では,半教師付きクラスタリング手法を用いた製品マッチングの新しい哲学を提案する。
実世界のデータセット上でIDECアルゴリズムを実験することにより,本手法の特性について検討する。
- 参考スコア(独自算出の注目度): 9.748519919202986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matching identical products present in multiple product feeds constitutes a
crucial element of many tasks of e-commerce, such as comparing product
offerings, dynamic price optimization, and selecting the assortment
personalized for the client. It corresponds to the well-known machine learning
task of entity matching, with its own specificity, like omnipresent
unstructured data or inaccurate and inconsistent product descriptions. This
paper aims to present a new philosophy to product matching utilizing a
semi-supervised clustering approach. We study the properties of this method by
experimenting with the IDEC algorithm on the real-world dataset using
predominantly textual features and fuzzy string matching, with more standard
approaches as a point of reference. Encouraging results show that unsupervised
matching, enriched with a small annotated sample of product links, could be a
possible alternative to the dominant supervised strategy, requiring extensive
manual data labeling.
- Abstract(参考訳): 複数の製品フィードに存在する同一製品とのマッチングは、製品の比較、動的価格最適化、クライアント向けにパーソナライズされた選択肢の選択など、eコマースにおける多くのタスクの重要な要素である。
これは、エンティティマッチングのよく知られた機械学習タスクに対応しており、非構造化データや不正確で一貫性のない製品記述など、独自の特異性を備えている。
本稿では,半教師付きクラスタリングアプローチを用いた製品マッチングの新しい哲学を提案する。
本稿では,本手法の特性を,主にテキストの特徴とファジィ文字列マッチングを用いて実世界のデータセット上でのIDECアルゴリズムを用いて実験し,基準点としてより標準的なアプローチを用いて検討する。
アントラクタマッチングは,少量のアノテートされた製品リンクに富んだもので,広範囲な手動データラベリングを必要とする支配的な管理戦略の代替となる可能性が示唆された。
関連論文リスト
- Enhanced E-Commerce Attribute Extraction: Innovating with Decorative
Relation Correction and LLAMA 2.0-Based Annotation [4.81846973621209]
本稿では,分類のためのBERT,属性値抽出のための条件付きランダムフィールド(CRF)層,データアノテーションのための大規模言語モデル(LLM)を統合した先駆的フレームワークを提案する。
提案手法は, CRFのシーケンス復号技術と相乗化したBERTの頑健な表現学習を利用して, 属性値の同定と抽出を行う。
私たちの方法論は、Walmart、BestBuyのEコマースNERデータセット、CoNLLデータセットなど、さまざまなデータセットで厳格に検証されています。
論文 参考訳(メタデータ) (2023-12-09T08:26:30Z) - JPAVE: A Generation and Classification-based Model for Joint Product
Attribute Prediction and Value Extraction [59.94977231327573]
JPAVEと呼ばれる値生成/分類と属性予測を備えたマルチタスク学習モデルを提案する。
我々のモデルの2つの変種は、オープンワールドとクローズドワールドのシナリオのために設計されている。
公開データセットにおける実験結果は,強いベースラインと比較して,我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:36:16Z) - Product Attribute Value Extraction using Large Language Models [56.96665345570965]
事前学習言語モデル(PLM)に基づく最先端属性/値抽出手法は2つの欠点に直面している。
我々は,大規模言語モデル(LLM)を,既存の属性/値抽出法に代わる,より訓練的なデータ効率,より堅牢な代替手段として活用する可能性を探る。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - A Unified Generative Approach to Product Attribute-Value Identification [6.752749933406399]
本稿では,製品属性値識別(PAVI)タスクに対する生成的アプローチについて検討する。
我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。
提案手法が既存の抽出法や分類法よりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-09T00:33:30Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Interpretable Methods for Identifying Product Variants [0.2589904091148018]
製品の種類を識別する新しい手法を提案する。
制約付きクラスタリングと調整されたNLP技術を組み合わせている。
精度の高い要求を満たすなど、特定のビジネス基準を満たすアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-04-12T14:37:16Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - A Hybrid Approach to Enhance Pure Collaborative Filtering based on
Content Feature Relationship [0.17188280334580192]
本稿では,自然言語処理領域であるWord2Vecから,コンテンツ特徴間の暗黙的な関係を抽出する手法を提案する。
次に、関連性を利用してアイテムのベクトル表現を決定する新しいコンテンツベースレコメンデーションシステムを提案する。
評価結果から,ユーザが選択した項目の選好を,純粋に協調的なフィルタリングと同等に予測できることが示唆された。
論文 参考訳(メタデータ) (2020-05-17T02:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。