論文の概要: Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2106.00209v1
- Date: Tue, 1 Jun 2021 03:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:20:25.911084
- Title: Rethinking Re-Sampling in Imbalanced Semi-Supervised Learning
- Title(参考訳): 不均衡半教師学習における再サンプリングの再考
- Authors: Ju He, Adam Kortylewski, Shaokang Yang, Shuai Liu, Cheng Yang, Changhu
Wang, Alan Yuille
- Abstract要約: Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
ほとんどのSSLアルゴリズムは、クラスディストリビューションがトレーニングセットとテストセットの両方でバランスが取れているという仮定の下で動作します。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
- 参考スコア(独自算出の注目度): 26.069534478556527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Learning (SSL) has shown its strong ability in utilizing
unlabeled data when labeled data is scarce. However, most SSL algorithms work
under the assumption that the class distributions are balanced in both training
and test sets. In this work, we consider the problem of SSL on class-imbalanced
data, which better reflects real-world situations but has only received limited
attention so far. In particular, we decouple the training of the representation
and the classifier, and systematically investigate the effects of different
data re-sampling techniques when training the whole network including a
classifier as well as fine-tuning the feature extractor only. We find that data
re-sampling is of critical importance to learn a good classifier as it
increases the accuracy of the pseudo-labels, in particular for the minority
classes in the unlabeled data. Interestingly, we find that accurate
pseudo-labels do not help when training the feature extractor, rather
contrariwise, data re-sampling harms the training of the feature extractor.
This finding is against the general intuition that wrong pseudo-labels always
harm the model performance in SSL. Based on these findings, we suggest to
re-think the current paradigm of having a single data re-sampling strategy and
develop a simple yet highly effective Bi-Sampling (BiS) strategy for SSL on
class-imbalanced data. BiS implements two different re-sampling strategies for
training the feature extractor and the classifier and integrates this decoupled
training into an end-to-end framework... Code will be released at
https://github.com/TACJu/Bi-Sampling.
- Abstract(参考訳): Semi-Supervised Learning (SSL)はラベル付きデータが不足している場合にラベル付きデータを利用する強力な能力を示している。
しかし、ほとんどのSSLアルゴリズムは、クラス分布がトレーニングセットとテストセットの両方で均衡しているという仮定の下で機能する。
本研究では,クラス不均衡データに対するSSLの問題について考察する。
特に、表現と分類器の訓練を分離し、分類器を含むネットワーク全体のトレーニングや特徴抽出器のみを微調整する際に異なるデータ再サンプリング手法の効果を体系的に検討する。
特にラベルなしデータのマイノリティクラスにおいて、疑似ラベルの精度を高めるため、データ再サンプリングは優れた分類法を学ぶ上で非常に重要であることがわかった。
興味深いことに、特徴抽出器をトレーニングする際、むしろ逆にデータ再サンプリングが特徴抽出器のトレーニングを損なう場合、正確な擬似ラベルは役に立たない。
この発見は、間違った擬似ラベルがSSLのモデルパフォーマンスを常に損なうという一般的な直観に反している。
これらの結果を踏まえて,単一データ再サンプリング戦略の現在のパラダイムを再考し,クラス不均衡データに対するsslの単純かつ高効率なbis戦略を開発することを提案する。
BiSは機能抽出器と分類器をトレーニングするための2つの異なる再サンプリング戦略を実装し、この分離されたトレーニングをエンドツーエンドフレームワークに統合する。
関連論文リスト
- Semi-Supervised Sparse Gaussian Classification: Provable Benefits of Unlabeled Data [6.812609988733991]
高次元ガウス分類のためのSSLについて検討する。
正確な特徴選択のための情報理論の下限を解析する。
理論的解析を補完するシミュレーションを提案する。
論文 参考訳(メタデータ) (2024-09-05T08:21:05Z) - SSB: Simple but Strong Baseline for Boosting Performance of Open-Set
Semi-Supervised Learning [106.46648817126984]
本稿では,挑戦的で現実的なオープンセットSSL設定について検討する。
目標は、inlierを正しく分類し、outlierを検知することである。
信頼度の高い疑似ラベル付きデータを組み込むことで、不整合分類性能を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2023-11-17T15:14:40Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - Transfer and Share: Semi-Supervised Learning from Long-Tailed Data [27.88381366842497]
本稿では、TRAS(TRAnsfer and Share)を用いて、長い尾を持つ半教師付きデータを効果的に活用する。
TRASは従来のSSLモデルの不均衡な擬似ラベル分布を変換する。
その後、マイノリティクラスが大きな注目を集めるように、分布をターゲットモデルに転送する。
論文 参考訳(メタデータ) (2022-05-26T13:37:59Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z) - ABC: Auxiliary Balanced Classifier for Class-imbalanced Semi-supervised
Learning [6.866717993664787]
既存の半教師付き学習(SSL)アルゴリズムは、クラスバランスのデータセットを仮定する。
ラベルのないデータを効果的に活用できるスケーラブルなクラス不均衡SSLアルゴリズムを提案する。
提案アルゴリズムは,4つのベンチマークデータセットを用いて,様々なクラス不均衡SSL実験における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-20T04:07:48Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised
Large-scale Fine-Grained Recognition [28.06659482245647]
半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチによる課題である。
本稿では,バイラテラルブランチ・セルフトレーニング・フレームワーク (Bilateral-Branch Self-Training Framework, BiSTF) を提案する。
BiSTFはSemi-iNatデータセット上で既存の最先端SSLよりも優れています。
論文 参考訳(メタデータ) (2021-07-14T15:28:54Z) - OpenMatch: Open-set Consistency Regularization for Semi-supervised
Learning with Outliers [71.08167292329028]
我々はOpenMatchと呼ばれる新しいオープンセットセミスーパーバイザードラーニング(OSSL)アプローチを提案する。
OpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統合する。
3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全な教師付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-28T23:57:15Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。