論文の概要: Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data
- arxiv url: http://arxiv.org/abs/2205.02209v1
- Date: Wed, 4 May 2022 17:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 13:31:31.393747
- Title: Semi-Supervised Cascaded Clustering for Classification of Noisy Label
Data
- Title(参考訳): 半教師付きカスケードクラスタリングによる雑音ラベルデータの分類
- Authors: Ashit Gupta, Anirudh Deodhar, Tathagata Mukherjee and Venkataramana
Runkana
- Abstract要約: 教師付き分類技術の性能は、データがノイズのあるラベルを持つと劣化することが多い。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
パターンを抽出し、そのようなデータセットのクラスをカスケード木として生成する半教師付きカスケードクラスタリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of supervised classification techniques often deteriorates
when the data has noisy labels. Even the semi-supervised classification
approaches have largely focused only on the problem of handling missing labels.
Most of the approaches addressing the noisy label data rely on deep neural
networks (DNN) that require huge datasets for classification tasks. This poses
a serious challenge especially in process and manufacturing industries, where
the data is limited and labels are noisy. We propose a semi-supervised cascaded
clustering (SSCC) algorithm to extract patterns and generate a cascaded tree of
classes in such datasets. A novel cluster evaluation matrix (CEM) with
configurable hyperparameters is introduced to localize and eliminate the noisy
labels and invoke a pruning criterion on cascaded clustering. The algorithm
reduces the dependency on expensive human expertise for assessing the accuracy
of labels. A classifier generated based on SSCC is found to be accurate and
consistent even when trained on noisy label datasets. It performed better in
comparison with the support vector machines (SVM) when tested on multiple
noisy-label datasets, including an industrial dataset. The proposed approach
can be effectively used for deriving actionable insights in industrial settings
with minimal human expertise.
- Abstract(参考訳): 教師付き分類手法の性能は、データがノイズラベルを持つ場合、しばしば低下する。
半教師付き分類アプローチでさえも、不足ラベルを扱う問題にのみ焦点を絞っている。
ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。
これは特に、データに制限があり、ラベルが騒がしいプロセスや製造業において深刻な課題となる。
パターンを抽出し、そのようなデータセットにクラスをカスケードした木を生成するための半教師付きカスケードクラスタリング(SSCC)アルゴリズムを提案する。
構成可能なハイパーパラメータを持つ新しいクラスタ評価行列(CEM)を導入し、ノイズラベルのローカライズと除去を行い、カスケードクラスタリングにおけるプルーニング基準を実行する。
このアルゴリズムは、ラベルの精度を評価するための高価な人間の専門知識への依存を減らす。
SSCCに基づいて生成された分類器は、ノイズラベルデータセットでトレーニングされた場合でも正確で一貫性がある。
産業データセットを含む複数のノイズの多いラベルデータセットでテストした場合、サポートベクタマシン(SVM)と比較して、パフォーマンスが向上した。
提案手法は、人間の専門知識を最小限に抑えた産業環境における実用的な洞察を導出するために効果的に利用できる。
関連論文リスト
- Semi-Supervised Hierarchical Multi-Label Classifier Based on Local Information [1.6574413179773761]
局所情報に基づく半教師付き階層型多言語分類器(SSHMC-BLI)
SSHMC-BLIは、ラベル付き隣人のラベルのパスからラベルなしのインスタンスごとに擬似ラベルを構築する。
機能ゲノミクスによる12の挑戦的なデータセットの実験では、ラベル付きデータとラベル付きデータを使用することで、ラベル付きデータのみに基づいてトレーニングされた教師付き階層型分類器のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-04-30T20:16:40Z) - Noisy Label Processing for Classification: A Survey [2.8821062918162146]
長い、退屈なデータアノテーションのプロセスでは、アノテーションはミスをしがちで、画像のラベルが正しくない。
コンピュータビジョンタスク、特に分類タスクにおいて、ノイズの多いラベルと戦うことが不可欠である。
実世界のデータで導かれる合成ラベルノイズパターンを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-05T15:11:09Z) - Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。
本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T03:06:19Z) - Transductive CLIP with Class-Conditional Contrastive Learning [68.51078382124331]
雑音ラベル付き分類ネットワークをスクラッチから学習するための新しいフレームワークであるTransductive CLIPを提案する。
擬似ラベルへの依存を軽減するために,クラス条件のコントラスト学習機構を提案する。
アンサンブルラベルは、ノイズラベル付きディープニューラルネットワークのトレーニングを安定化するための擬似ラベル更新戦略として採用されている。
論文 参考訳(メタデータ) (2022-06-13T14:04:57Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Weakly Supervised Classification Using Group-Level Labels [12.285265254225166]
本稿では,グループレベルのバイナリラベルを,インスタンスレベルのバイナリ分類モデルの訓練に弱い監督力として利用する手法を提案する。
グループレベルのラベルを個別のインスタンスに対してクラス条件ノイズ(CCN)ラベルとしてモデル化し,強ラベル付きインスタンスでトレーニングされたモデルの予測を正規化するためにノイズラベルを使用する。
論文 参考訳(メタデータ) (2021-08-16T20:01:45Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。