論文の概要: An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2211.11086v1
- Date: Sun, 20 Nov 2022 21:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:25:11.454020
- Title: An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning
- Title(参考訳): 不均衡半教師付き学習のための恥ずかしいほど単純なベースライン
- Authors: Hao Chen, Yue Fan, Yidong Wang, Jindong Wang, Bernt Schiele, Xing Xie,
Marios Savvides, Bhiksha Raj
- Abstract要約: 半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
- 参考スコア(独自算出の注目度): 103.86497165324752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning (SSL) has shown great promise in leveraging
unlabeled data to improve model performance. While standard SSL assumes uniform
data distribution, we consider a more realistic and challenging setting called
imbalanced SSL, where imbalanced class distributions occur in both labeled and
unlabeled data. Although there are existing endeavors to tackle this challenge,
their performance degenerates when facing severe imbalance since they can not
reduce the class imbalance sufficiently and effectively. In this paper, we
study a simple yet overlooked baseline -- SimiS -- which tackles data imbalance
by simply supplementing labeled data with pseudo-labels, according to the
difference in class distribution from the most frequent class. Such a simple
baseline turns out to be highly effective in reducing class imbalance. It
outperforms existing methods by a significant margin, e.g., 12.8%, 13.6%, and
16.7% over previous SOTA on CIFAR100-LT, FOOD101-LT, and ImageNet127
respectively. The reduced imbalance results in faster convergence and better
pseudo-label accuracy of SimiS. The simplicity of our method also makes it
possible to be combined with other re-balancing techniques to improve the
performance further. Moreover, our method shows great robustness to a wide
range of data distributions, which holds enormous potential in practice. Code
will be publicly available.
- Abstract(参考訳): 半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
標準SSLは均一なデータ分散を前提としていますが、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定を考えます。
この課題に取り組むための取り組みは存在するが、クラスの不均衡を十分に効果的に減らすことができないため、深刻な不均衡に直面した際にパフォーマンスが低下する。
本稿では,ラベル付きデータを擬似ラベルで単純に補足することで,データ不均衡に対処する単純なベースラインであるSimiSについて,最も頻繁なクラスからのクラス分布の違いに応じて検討する。
このような単純なベースラインは、クラス不均衡を減らすのに非常に効果的であることが判明した。
CIFAR100-LT、FOOD101-LT、ImageNet127では、従来のSOTAよりも12.8%、13.6%、16.7%の差で、既存の手法よりも優れている。
不均衡の低減は、SimiSのより高速な収束と擬似ラベル精度の向上をもたらす。
また,本手法の単純さにより,他の再分散手法と組み合わせることで,さらなる性能向上を図ることができる。
さらに,本手法は,実際に大きな可能性を秘めている幅広いデータ分布に対して,非常に堅牢性を示す。
コードは公開されます。
関連論文リスト
- Gradient Reweighting: Towards Imbalanced Class-Incremental Learning [9.96848829952036]
CIL(Class-Incremental Learning)は、非定常データから新しいクラスを継続的に認識するためにモデルを訓練する。
CILの大きな課題は、非一様分布を特徴とする実世界のデータに適用する場合である。
この二重不均衡問題により、FC層に偏りのある勾配更新が生じ、CILの過度/過度な適合と破滅的な忘れが引き起こされる。
論文 参考訳(メタデータ) (2024-02-28T18:08:03Z) - On Pseudo-Labeling for Class-Mismatch Semi-Supervised Learning [50.48888534815361]
本稿では,クラスミスマッチSSLにおけるPseudo-Labeling(PL)を実証的に解析する。
PLは、SSL問題を教師あり学習に変換する、単純で代表的なSSLメソッドである。
RPL(Re- Balanced Pseudo-Labeling)とSEC(Semantic Exploration Clustering)の2つのコンポーネントによるクラスミスマッチSSLにおけるPLの改善を提案する。
論文 参考訳(メタデータ) (2023-01-15T03:21:59Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets [14.739359755029353]
現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
論文 参考訳(メタデータ) (2022-03-10T21:34:08Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - PLM: Partial Label Masking for Imbalanced Multi-label Classification [59.68444804243782]
長いラベルの分布を持つ実世界のデータセットで訓練されたニューラルネットワークは、頻繁なクラスに偏りがあり、頻繁なクラスでは不十分である。
本稿では,この比率を利用したPLM(Partial Label Masking)を提案する。
本手法は,マルチラベル (MultiMNIST と MSCOCO) とシングルラベル (CIFAR-10 と CIFAR-100) の2つの画像分類データセットにおいて,既存の手法と比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-05-22T18:07:56Z) - CReST: A Class-Rebalancing Self-Training Framework for Imbalanced
Semi-Supervised Learning [15.671523625324388]
クラスアンバランスデータの既存のSSLメソッドを改善するために、クラスリバランスセルフトレーニング(CReST)を提案します。
CRESTはラベル付きセットを拡張したベースラインSSLモデルを反復的に再トレーニングする。
CReSTとCReST+は、様々なクラスアンバランスデータセットにおける最先端のSSLアルゴリズムを改善する。
論文 参考訳(メタデータ) (2021-02-18T18:59:57Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - Class-Imbalanced Semi-Supervised Learning [33.94685366079589]
Semi-Supervised Learning (SSL)はラベル付けの難しさを克服し、ラベルなしデータを完全に活用することで大きな成功を収めている。
本稿では,クラス不均衡データを用いた半教師あり学習(CISSL)の課題を紹介する。
本手法はCISSL環境における従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-02-17T07:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。