論文の概要: Consistent Text Categorization using Data Augmentation in e-Commerce
- arxiv url: http://arxiv.org/abs/2305.05402v2
- Date: Tue, 30 May 2023 08:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:40:56.894678
- Title: Consistent Text Categorization using Data Augmentation in e-Commerce
- Title(参考訳): eコマースにおけるデータ拡張を用いた一貫性テキスト分類
- Authors: Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv
- Abstract要約: 一貫性のあるテキスト分類のための新しいフレームワークを提案する。
私たちの目標は、本番レベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。
- 参考スコア(独自算出の注目度): 1.558017967663767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The categorization of massive e-Commerce data is a crucial, well-studied
task, which is prevalent in industrial settings. In this work, we aim to
improve an existing product categorization model that is already in use by a
major web company, serving multiple applications. At its core, the product
categorization model is a text classification model that takes a product title
as an input and outputs the most suitable category out of thousands of
available candidates. Upon a closer inspection, we found inconsistencies in the
labeling of similar items. For example, minor modifications of the product
title pertaining to colors or measurements majorly impacted the model's output.
This phenomenon can negatively affect downstream recommendation or search
applications, leading to a sub-optimal user experience.
To address this issue, we propose a new framework for consistent text
categorization. Our goal is to improve the model's consistency while
maintaining its production-level performance. We use a semi-supervised approach
for data augmentation and presents two different methods for utilizing
unlabeled samples. One method relies directly on existing catalogs, while the
other uses a generative model. We compare the pros and cons of each approach
and present our experimental results.
- Abstract(参考訳): 巨大なeコマースデータの分類は、産業環境で広く普及している、重要かつ十分に研究されたタスクである。
本研究は,既存の製品分類モデルの改良を目標とし,すでに大手web企業によって利用されており,複数のアプリケーションに対応している。
その中核となる製品分類モデルは、製品タイトルを入力として取り、数千の候補の中から最も適したカテゴリを出力するテキスト分類モデルである。
より精査した結果,類似項目のラベル付けに矛盾が認められた。
例えば、色や測定に関連する製品タイトルの小さな変更は、モデルの出力に大きな影響を与えました。
この現象は下流のレコメンデーションや検索アプリケーションに悪影響を与え、最適なユーザーエクスペリエンスを損なう。
この問題に対処するため,一貫したテキスト分類のための新しいフレームワークを提案する。
私たちの目標は、プロダクションレベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。
データ拡張に半教師付きアプローチを用い、ラベルなしサンプルを利用する2つの異なる方法を提案する。
1つの方法は既存のカタログに直接依存し、もう1つは生成モデルを使用する。
それぞれのアプローチの長所と短所を比較し,実験結果を示す。
関連論文リスト
- A Simple Baseline for Predicting Events with Auto-Regressive Tabular Transformers [70.20477771578824]
イベント予測への既存のアプローチには、タイムアウェアな位置埋め込み、学習行とフィールドエンコーディング、クラス不均衡に対処するオーバーサンプリング方法などがある。
基本位置埋め込みと因果言語モデリングの目的を持つ標準自己回帰型LPM変換器を用いて,単純だが柔軟なベースラインを提案する。
私たちのベースラインは、一般的なデータセットで既存のアプローチよりも優れており、さまざまなユースケースに使用することができます。
論文 参考訳(メタデータ) (2024-10-14T15:59:16Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce [10.870790183380517]
以上の問題に対処するために,新たな半教師付き多チャンネルグラフ畳み込みネットワーク(SMGCN)を提案する。
SMGCNは、クエリとカテゴリの類似点を利用して、カテゴリ情報を拡張し、後続ラベルを強化する。
論文 参考訳(メタデータ) (2024-08-04T04:52:21Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Multi-output Headed Ensembles for Product Item Classification [0.9053163124987533]
本稿では,eコマースカタログを対象としたディープラーニングに基づく分類モデルフレームワークを提案する。
我々は、ロバストな業界標準ベースラインモデルに対する改善を示す。
また,ユーザセッションを用いたモデル性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T01:23:36Z) - Data Efficient Training with Imbalanced Label Sample Distribution for
Fashion Detection [5.912870746288055]
本稿では,長期データ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。
本実験では,ファッションアパレルのイメージに基づく属性分類を行い,新しい重み付け法に好適な性能を示した。
論文 参考訳(メタデータ) (2023-05-07T21:25:09Z) - Text Classification for Predicting Multi-level Product Categories [0.0]
オンラインショッピングプラットフォームでは、製品の詳細な分類がユーザナビゲーションを促進する。
本研究では,食品の商品名分類に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-02T17:00:05Z) - PreSizE: Predicting Size in E-Commerce using Transformers [76.33790223551074]
PreSizEは、Transformerを使って正確なサイズ予測を行う新しいディープラーニングフレームワークである。
我々は,PreSizEが従来の最先端のベースラインよりも優れた予測性能を実現できることを示した。
概念実証として、PreSizEによるサイズ予測が、既存の生産推奨システムに統合できることを実証しています。
論文 参考訳(メタデータ) (2021-05-04T15:23:59Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Learning Robust Models for e-Commerce Product Search [23.537201383165755]
検索クエリ意図にマッチしないアイテムを表示することは、eコマースにおける顧客エクスペリエンスを低下させる。
問題を緩和するには、大きなラベル付きデータセットが必要である。
我々は、ミスマッチを効果的に分類することを学ぶ、深いエンドツーエンドモデルを開発する。
論文 参考訳(メタデータ) (2020-05-07T17:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。