論文の概要: Robust Product Classification with Instance-Dependent Noise
- arxiv url: http://arxiv.org/abs/2209.06946v1
- Date: Wed, 14 Sep 2022 21:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:33:55.880554
- Title: Robust Product Classification with Instance-Dependent Noise
- Title(参考訳): インスタンス依存ノイズを用いたロバスト製品分類
- Authors: Huy Nguyen and Devashish Khatwani
- Abstract要約: 大規模なEコマース製品データ(商品項目を誤ったカテゴリに配置する)のノイズラベルは、製品分類タスクにおいて重要な問題である。
製品タイトル分類の性能に及ぼすインスタンス依存ノイズの影響について検討する。
- 参考スコア(独自算出の注目度): 2.0661025590877777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Noisy labels in large E-commerce product data (i.e., product items are placed
into incorrect categories) are a critical issue for product categorization task
because they are unavoidable, non-trivial to remove and degrade prediction
performance significantly. Training a product title classification model which
is robust to noisy labels in the data is very important to make product
classification applications more practical. In this paper, we study the impact
of instance-dependent noise to performance of product title classification by
comparing our data denoising algorithm and different noise-resistance training
algorithms which were designed to prevent a classifier model from over-fitting
to noise. We develop a simple yet effective Deep Neural Network for product
title classification to use as a base classifier. Along with recent methods of
stimulating instance-dependent noise, we propose a novel noise stimulation
algorithm based on product title similarity. Our experiments cover multiple
datasets, various noise methods and different training solutions. Results
uncover the limit of classification task when noise rate is not negligible and
data distribution is highly skewed.
- Abstract(参考訳): 大規模なeコマース製品データ(すなわち、製品項目が間違ったカテゴリに分類される)におけるノイズの多いラベルは、製品分類タスクにおいて重要な問題である。
データ内のノイズの多いラベルに対して堅牢な製品タイトル分類モデルをトレーニングすることは、製品分類アプリケーションをより実用的なものにする上で非常に重要である。
本稿では,分類器モデルがノイズに過度に収まらないよう設計した,当社のデータ復調アルゴリズムと各種ノイズ耐性トレーニングアルゴリズムを比較して,インスタンス依存ノイズが製品タイトル分類の性能に与える影響について検討する。
我々は,ベース分類器として使用する製品タイトル分類のための,単純かつ効果的な深層ニューラルネットワークを開発した。
近年のインスタンス依存ノイズを刺激する手法とともに,製品タイトルの類似性に基づく新しい雑音刺激アルゴリズムを提案する。
実験は、複数のデータセット、様々なノイズ手法、異なるトレーニングソリューションをカバーする。
その結果、ノイズレートが無視可能で、データ分布が著しく歪んだ場合の分類タスクの限界を明らかにする。
関連論文リスト
- Training Gradient Boosted Decision Trees on Tabular Data Containing Label Noise for Classification Tasks [1.261491746208123]
本研究の目的は,ラベルノイズが勾配ブースト決定木に及ぼす影響とそれらの効果を緩和する方法を検討することである。
提案手法は,成人のデータセットに対して最先端のノイズ検出性能を示し,成人および乳癌のデータセットに対して最も高い分類精度とリコールを実現する。
論文 参考訳(メタデータ) (2024-09-13T09:09:24Z) - NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - Multiclass Learning from Noisy Labels for Non-decomposable Performance Measures [15.358504449550013]
非分解性性能尺度の2つのクラスに対して雑音ラベルから学習するアルゴリズムを設計する。
どちらの場合も、広範に研究されているクラス条件雑音モデルの下で、アルゴリズムのノイズ補正バージョンを開発する。
実験では,ラベルノイズ処理におけるアルゴリズムの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-01T23:03:53Z) - Rethinking the Value of Labels for Instance-Dependent Label Noise
Learning [43.481591776038144]
実世界のアプリケーションにおけるノイズの多いラベルは、しばしば真のラベルと機能の両方に依存します。
本研究では、ノイズ遷移行列を明示的にモデル化しない新しい深層生成モデルを用いて、インスタンス依存ラベルノイズに対処する。
提案アルゴリズムは,カジュアルな表現学習を活用し,データから高レベルのコンテンツとスタイルの潜伏要素を同時に識別する。
論文 参考訳(メタデータ) (2023-05-10T15:29:07Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z) - Multi-Class Classification from Noisy-Similarity-Labeled Data [98.13491369929798]
雑音に類似したラベル付きデータのみから学習する方法を提案する。
ノイズ遷移行列を用いて、クリーンデータとノイズデータの間にクラス後確率をブリッジする。
雑音のないクラスラベルをインスタンスに割り当てる新しい学習システムを構築した。
論文 参考訳(メタデータ) (2020-02-16T05:10:21Z) - Particle Competition and Cooperation for Semi-Supervised Learning with
Label Noise [6.247917165799351]
The graph-based semi-supervised learning approach based on Particle competition and cooperation。
本稿では,ラベルノイズの存在に対するロバスト性を高めるために,新しい粒子競合・協調アルゴリズムを提案する。
ラベルなしノードの分類とラベルノイズによるノードの再分類を、ユニークなプロセスで行う。
論文 参考訳(メタデータ) (2020-02-12T19:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。