論文の概要: Consistent Text Categorization using Data Augmentation in e-Commerce
- arxiv url: http://arxiv.org/abs/2305.05402v2
- Date: Tue, 30 May 2023 08:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 00:40:56.894678
- Title: Consistent Text Categorization using Data Augmentation in e-Commerce
- Title(参考訳): eコマースにおけるデータ拡張を用いた一貫性テキスト分類
- Authors: Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv
- Abstract要約: 一貫性のあるテキスト分類のための新しいフレームワークを提案する。
私たちの目標は、本番レベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。
- 参考スコア(独自算出の注目度): 1.558017967663767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The categorization of massive e-Commerce data is a crucial, well-studied
task, which is prevalent in industrial settings. In this work, we aim to
improve an existing product categorization model that is already in use by a
major web company, serving multiple applications. At its core, the product
categorization model is a text classification model that takes a product title
as an input and outputs the most suitable category out of thousands of
available candidates. Upon a closer inspection, we found inconsistencies in the
labeling of similar items. For example, minor modifications of the product
title pertaining to colors or measurements majorly impacted the model's output.
This phenomenon can negatively affect downstream recommendation or search
applications, leading to a sub-optimal user experience.
To address this issue, we propose a new framework for consistent text
categorization. Our goal is to improve the model's consistency while
maintaining its production-level performance. We use a semi-supervised approach
for data augmentation and presents two different methods for utilizing
unlabeled samples. One method relies directly on existing catalogs, while the
other uses a generative model. We compare the pros and cons of each approach
and present our experimental results.
- Abstract(参考訳): 巨大なeコマースデータの分類は、産業環境で広く普及している、重要かつ十分に研究されたタスクである。
本研究は,既存の製品分類モデルの改良を目標とし,すでに大手web企業によって利用されており,複数のアプリケーションに対応している。
その中核となる製品分類モデルは、製品タイトルを入力として取り、数千の候補の中から最も適したカテゴリを出力するテキスト分類モデルである。
より精査した結果,類似項目のラベル付けに矛盾が認められた。
例えば、色や測定に関連する製品タイトルの小さな変更は、モデルの出力に大きな影響を与えました。
この現象は下流のレコメンデーションや検索アプリケーションに悪影響を与え、最適なユーザーエクスペリエンスを損なう。
この問題に対処するため,一貫したテキスト分類のための新しいフレームワークを提案する。
私たちの目標は、プロダクションレベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。
データ拡張に半教師付きアプローチを用い、ラベルなしサンプルを利用する2つの異なる方法を提案する。
1つの方法は既存のカタログに直接依存し、もう1つは生成モデルを使用する。
それぞれのアプローチの長所と短所を比較し,実験結果を示す。
関連論文リスト
- TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance
Segmentation [51.199543962233506]
大規模データセットのトレーニングは、ビデオインスタンスセグメンテーションのパフォーマンスを高めることができるが、VISのデータセットは労働コストが高いためスケールアップが難しい。
私たちが持っているものは、多数の独立した提出された特定のデータセットであり、データ量と多様性を高めるためにデータセットの集合をまたいだモデルを共同でトレーニングすることが魅力です。
我々は、YouTube-VIS 2019、YouTube-VIS 2021、OVIS、UVOの4つの人気で挑戦的なベンチマークで、広範囲に評価を行っている。
本モデルでは,ベースラインソリューションよりも大幅に改善され,すべてのベンチマークで新たな最先端レコードが設定される。
論文 参考訳(メタデータ) (2023-12-11T18:50:09Z) - Multi-output Headed Ensembles for Product Item Classification [0.9053163124987533]
本稿では,eコマースカタログを対象としたディープラーニングに基づく分類モデルフレームワークを提案する。
我々は、ロバストな業界標準ベースラインモデルに対する改善を示す。
また,ユーザセッションを用いたモデル性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T01:23:36Z) - Data Efficient Training with Imbalanced Label Sample Distribution for
Fashion Detection [5.912870746288055]
本稿では,長期データ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。
本実験では,ファッションアパレルのイメージに基づく属性分類を行い,新しい重み付け法に好適な性能を示した。
論文 参考訳(メタデータ) (2023-05-07T21:25:09Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Text Classification for Predicting Multi-level Product Categories [0.0]
オンラインショッピングプラットフォームでは、製品の詳細な分類がユーザナビゲーションを促進する。
本研究では,食品の商品名分類に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-02T17:00:05Z) - PreSizE: Predicting Size in E-Commerce using Transformers [76.33790223551074]
PreSizEは、Transformerを使って正確なサイズ予測を行う新しいディープラーニングフレームワークである。
我々は,PreSizEが従来の最先端のベースラインよりも優れた予測性能を実現できることを示した。
概念実証として、PreSizEによるサイズ予測が、既存の生産推奨システムに統合できることを実証しています。
論文 参考訳(メタデータ) (2021-05-04T15:23:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Learning Robust Models for e-Commerce Product Search [23.537201383165755]
検索クエリ意図にマッチしないアイテムを表示することは、eコマースにおける顧客エクスペリエンスを低下させる。
問題を緩和するには、大きなラベル付きデータセットが必要である。
我々は、ミスマッチを効果的に分類することを学ぶ、深いエンドツーエンドモデルを開発する。
論文 参考訳(メタデータ) (2020-05-07T17:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。