論文の概要: BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets
- arxiv url: http://arxiv.org/abs/2203.05651v1
- Date: Thu, 10 Mar 2022 21:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 13:58:30.709276
- Title: BASIL: Balanced Active Semi-supervised Learning for Class Imbalanced
Datasets
- Title(参考訳): BASIL:クラス不均衡データセットのためのバランス付きアクティブ半教師付き学習
- Authors: Suraj Kothawade, Pavan Kumar Reddy, Ganesh Ramakrishnan, Rishabh Iyer
- Abstract要約: 現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベルなしデータセットの両方で、各クラスで利用可能なデータポイントの数の間のバランスを前提としている。
本研究では,サブモジュール相互情報(SMI)関数をクラスごとに最適化し,アクティブな学習ループにおけるバランスの取れたデータセットを徐々に選択するアルゴリズムであるBASILを提案する。
- 参考スコア(独自算出の注目度): 14.739359755029353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current semi-supervised learning (SSL) methods assume a balance between the
number of data points available for each class in both the labeled and the
unlabeled data sets. However, there naturally exists a class imbalance in most
real-world datasets. It is known that training models on such imbalanced
datasets leads to biased models, which in turn lead to biased predictions
towards the more frequent classes. This issue is further pronounced in SSL
methods, as they would use this biased model to obtain psuedo-labels (on the
unlabeled data) during training. In this paper, we tackle this problem by
attempting to select a balanced labeled dataset for SSL that would result in an
unbiased model. Unfortunately, acquiring a balanced labeled dataset from a
class imbalanced distribution in one shot is challenging. We propose BASIL
(Balanced Active Semi-supervIsed Learning), a novel algorithm that optimizes
the submodular mutual information (SMI) functions in a per-class fashion to
gradually select a balanced dataset in an active learning loop. Importantly,
our technique can be efficiently used to improve the performance of any SSL
method. Our experiments on Path-MNIST and Organ-MNIST medical datasets for a
wide array of SSL methods show the effectiveness of Basil. Furthermore, we
observe that Basil outperforms the state-of-the-art diversity and uncertainty
based active learning methods since the SMI functions select a more balanced
dataset.
- Abstract(参考訳): 現在の半教師付き学習(SSL)メソッドは、ラベル付きデータセットとラベル付きデータセットの両方で、各クラスで利用可能なデータポイントの数とバランスをとる。
しかし、ほとんどの実世界のデータセットには自然にクラス不均衡が存在する。
このような不均衡なデータセットのトレーニングモデルがバイアスモデルにつながることが知られており、結果としてより頻繁なクラスに対するバイアス付き予測につながっている。
この問題はSSLメソッドでさらに強調され、トレーニング中に(ラベルなしのデータ上で)擬似ラベルを取得するためにこのバイアス付きモデルを使用する。
本稿では、SSLのためのバランスのとれたラベル付きデータセットを選択することで、バイアスのないモデルに対処する。
残念ながら、1ショットでクラス不均衡分布からバランス付きラベル付きデータセットを取得することは難しい。
本稿では,クラスごとにサブモジュラル相互情報(smi)機能を最適化し,アクティブラーニングループでバランスのとれたデータセットを徐々に選択する新しいアルゴリズムであるbasil(balanced active semi-supervised learning)を提案する。
重要なことに,この技術はSSLメソッドの性能向上に有効である。
幅広いSSL手法を対象としたPath-MNISTおよびOrgan-MNISTの医療データセットに関する実験により,バジルの有効性が示された。
さらに、SMI関数がよりバランスの取れたデータセットを選択するため、Basilは最先端の多様性と不確実性に基づくアクティブラーニング手法よりも優れています。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Learning Label Refinement and Threshold Adjustment for Imbalanced Semi-Supervised Learning [6.904448748214652]
半教師付き学習アルゴリズムは、不均衡なトレーニングデータに晒された場合、うまく機能しない。
Validation Data(SEVAL)に基づく擬似ラベル最適化によるセミ教師あり学習について紹介する。
SEVALは、擬似ラベルの精度を改善して特定のタスクに適応し、クラスごとに擬似ラベルの正確性を保証する。
論文 参考訳(メタデータ) (2024-07-07T13:46:22Z) - BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning [21.53320689054414]
本稿では,データ量と不確実性の両方のクラス分布を再均衡させる手法として,Ba balanced and Entropy-based Mix (BEM)を提案する。
実験の結果、BEMは様々なLTSSLフレームワークを大幅に強化し、複数のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-04-01T15:31:04Z) - On Pseudo-Labeling for Class-Mismatch Semi-Supervised Learning [50.48888534815361]
本稿では,クラスミスマッチSSLにおけるPseudo-Labeling(PL)を実証的に解析する。
PLは、SSL問題を教師あり学習に変換する、単純で代表的なSSLメソッドである。
RPL(Re- Balanced Pseudo-Labeling)とSEC(Semantic Exploration Clustering)の2つのコンポーネントによるクラスミスマッチSSLにおけるPLの改善を提案する。
論文 参考訳(メタデータ) (2023-01-15T03:21:59Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - ABC: Auxiliary Balanced Classifier for Class-imbalanced Semi-supervised
Learning [6.866717993664787]
既存の半教師付き学習(SSL)アルゴリズムは、クラスバランスのデータセットを仮定する。
ラベルのないデータを効果的に活用できるスケーラブルなクラス不均衡SSLアルゴリズムを提案する。
提案アルゴリズムは,4つのベンチマークデータセットを用いて,様々なクラス不均衡SSL実験における最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-20T04:07:48Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Distribution Aligning Refinery of Pseudo-label for Imbalanced
Semi-supervised Learning [126.31716228319902]
Pseudo-label (DARP) アルゴリズムの分散アライメント・リファナリーを開発する。
DARPは最先端のSSLスキームと有効かつ効率的に互換性があることを示す。
論文 参考訳(メタデータ) (2020-07-17T09:16:05Z) - Class-Imbalanced Semi-Supervised Learning [33.94685366079589]
Semi-Supervised Learning (SSL)はラベル付けの難しさを克服し、ラベルなしデータを完全に活用することで大きな成功を収めている。
本稿では,クラス不均衡データを用いた半教師あり学習(CISSL)の課題を紹介する。
本手法はCISSL環境における従来の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-02-17T07:48:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。