論文の概要: Categorizing Items with Short and Noisy Descriptions using Ensembled
Transferred Embeddings
- arxiv url: http://arxiv.org/abs/2110.11431v1
- Date: Thu, 21 Oct 2021 18:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 03:49:31.978987
- Title: Categorizing Items with Short and Noisy Descriptions using Ensembled
Transferred Embeddings
- Title(参考訳): アンサンブル転送埋め込みを用いた短くて騒がしい記述による項目の分類
- Authors: Yonatan Hadar and Erez Shmueli
- Abstract要約: Ensembled Transfered Embeddings (ETE)はアイテム分類のための新しい学習フレームワークである。
ETEは,PayPalが提供した大規模実世界のデータセットにおいて,最先端の項目分類手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 6.282068591820945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Item categorization is a machine learning task which aims at classifying
e-commerce items, typically represented by textual attributes, to their most
suitable category from a predefined set of categories. An accurate item
categorization system is essential for improving both the user experience and
the operational processes of the company. In this work, we focus on item
categorization settings in which the textual attributes representing items are
noisy and short, and labels (i.e., accurate classification of items into
categories) are not available. In order to cope with such settings, we propose
a novel learning framework, Ensembled Transferred Embeddings (ETE), which
relies on two key ideas: 1) labeling a relatively small sample of the target
dataset, in a semi-automatic process, and 2) leveraging other datasets from
related domains or related tasks that are large-scale and labeled, to extract
"transferable embeddings". Evaluation of ETE on a large-scale real-world
dataset provided to us by PayPal, shows that it significantly outperforms
traditional as well as state-of-the-art item categorization methods.
- Abstract(参考訳): 項目分類は、テキスト属性で表されるeコマースアイテムを、事前に定義されたカテゴリの集合から最も適したカテゴリに分類することを目的とした機械学習タスクである。
正確な項目分類システムは、ユーザエクスペリエンスと企業の運用プロセスの両方を改善する上で不可欠である。
本研究は,項目を表すテキスト属性が騒々しく短く,ラベル(項目をカテゴリに正確に分類する)が利用できない項目分類設定に焦点を当てる。
このような設定に対処するため、我々は2つの重要なアイデアに依存した新しい学習フレームワークEnsembled Transfered Embeddings (ETE)を提案する。
1) ターゲットデータセットの比較的小さなサンプルを半自動的なプロセスでラベル付けし、
2) 大規模でラベル付けされた関連ドメインや関連するタスクから他のデータセットを活用して,“転送可能な埋め込み”を抽出する。
PayPalが提供する大規模実世界のデータセット上でのETEの評価は、従来のものや最先端のアイテム分類方法よりも大幅に優れていることを示している。
関連論文リスト
- Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - Hierarchical Query Classification in E-commerce Search [38.67034103433015]
電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。
ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。
階層的問合せ分類の本質的な複雑さは,(1)支配的カテゴリに傾倒する顕著なクラス不均衡,(2)正確な分類を妨げる検索クエリの本質的簡潔さとあいまいさの2つの課題によって複雑化されている。
論文 参考訳(メタデータ) (2024-03-09T21:55:55Z) - Multi-output Headed Ensembles for Product Item Classification [0.9053163124987533]
本稿では,eコマースカタログを対象としたディープラーニングに基づく分類モデルフレームワークを提案する。
我々は、ロバストな業界標準ベースラインモデルに対する改善を示す。
また,ユーザセッションを用いたモデル性能評価手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T01:23:36Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Association Graph Learning for Multi-Task Classification with Category
Shifts [68.58829338426712]
関連する分類タスクが同じラベル空間を共有し、同時に学習されるマルチタスク分類に焦点を当てる。
我々は、不足クラスのためのタスク間で知識を伝達する関連グラフを学習する。
我々の手法は代表的基準よりも一貫して性能が良い。
論文 参考訳(メタデータ) (2022-10-10T12:37:41Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。